本文是LLM系列文章,针对《Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture
摘要
大型语言模型(LLM)发展的一个关键进展是混合专家(MoE)LLM的出现。与传统LLM相比,MoE LLM可以用更少的参数实现更高的性能,但由于其巨大的参数大小,部署起来仍然很困难。与以往依赖于专门设计的硬件的权重修剪方法不同,本文主要旨在通过引入即插即用专家级稀疏化技术来提高MoE LLM的部署效率。具体而言,据我们所知,我们首次提出了MoE LLM的任务不可知和特定任务专家修剪和跳过的后训练方法,旨在提高部署效率,同时在广泛的任务中保持模型性能。大量实验表明,我们提出的方法可以同时减少模型大小和提高推理速度,同时保持令人满意的性能。数据和代码将在https://github.com/Lucky-Lance/Expert_Sparsity可用。