🌟 1. 剪枝(Pruning)
剪枝通过删除神经网络中冗余或不重要的权重(或神经元)来减少模型规模。
🔹 常见方法:
- 非结构化剪枝:直接去除权重值接近于零的单个参数。
- 结构化剪枝:删除整个卷积核、神经元或注意力头,以减少模型复杂度。
- 动态剪枝:根据输入动态调整剪枝策略,保持灵活性。
👉 示例:
- 剪掉Transformer中不重要的注意力头
- 剪掉CNN中对特征提取贡献小的通道
🚀 2. 量化(Quantization)
量化是指将模型的参数(如权重)和激活值从高精度(如FP32)转换为低精度(如INT8、INT4、二值)表示,从而减少模型体积和计算量。。
🔹 常见方法:
- 静态量化(Static Quantization):在推理前对模型进行量化。
- 动态量化(Dynamic Quantization):在推理过程中实时量化激活值。
- 对称量化(Symmetric Quantization):用对称区间进行量化。
- 非对称量化(Asymmetric Quantization):用非对称区间进行量化。
🔹 典型方法:
✅ INT8量化(8-bit)
✅ INT4量化(4-bit)
✅ FP16量化(半精度浮点数)
✅ 混合精度量化(Mi