Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models

828 篇文章

已下架不支持订阅

7 篇文章
本文研究了如何提高混合专家(MoE)大型语言模型(LLM)的部署效率。通过任务不可知和特定任务的专家级修剪与跳过策略,实现了在不牺牲性能的前提下减小模型规模和提升推理速度。实验结果显示,这些方法能够有效减少内存占用,同时保持模型的高效运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture

并非所有专家都是平等的:专家混合大语言模型的高效专家修剪和跳过

摘要

大型语言模型(LLM)发展的一个关键进展是混合专家(MoE)LLM的出现。与传统LLM相比,MoE LLM可以用更少的参数实现更高的性能,但由于其巨大的参数大小,部署起来仍然很困难。与以往依赖于专门设计的硬件的权重修剪方法不同,本文主要旨在通过引入即插即用专家级稀疏化技术来提高MoE LLM的部署效率。具体而言,据我们所知,我们首次提出了MoE LLM的任务不可知和特定任务专家修剪和跳过的后训练方法,旨在提高部署效率,同时在广泛的任务中保持模型性能。大量实验表明,我们提出的方法可以同时减少模型大小和提高推理速度,同时保持令人满意的性能。数据和代码将在https://github.com/Lucky-Lance/Expert_Sparsity可用。

1 引言

2 相关工作

3 方法

4 实验

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值