文章主要内容和创新点
主要内容
本文提出了一种用于大语言模型(LLMs)低秩压缩的多粒度自适应分配(MGAA)方法,旨在解决现有低秩近似压缩方法中存在的问题:多数方法对所有权重矩阵采用统一压缩比,忽略其对模型性能的差异化影响;而少数启发式搜索策略存在计算效率低、泛化能力弱(偏向特定任务)的缺陷。
MGAA通过两级自适应参数分配实现高效压缩:
- 子层间(inter-sublayer):基于子层输入与输出特征的余弦相似度评估子层重要性,为重要子层分配更低的压缩比(保留更多参数),非重要子层分配更高的压缩比。
- 子层内(intra-sublayer):基于权重矩阵的能量分布(特征值分布),在保证各矩阵能量保留率一致的前提下,为不同权重矩阵分配不同压缩比,确保模型性能稳定。
实验验证显示,MGAA在多个LLMs(LLaMA1、Vicuna、LLaMA3、Mistral等)和基准数据集上性能优于现有低秩方法,且在多模态模型LLaVA上也表现出显著提升。此外,MGAA可作为“即插即用”模块与多种低秩近似技术结合,泛化能力强。
创新点
- 子层级压缩比分配策略:基于输入与输出特征的余弦相似度量化子层重要性,自