活动介绍

一个致力于将 DeepSeek V3、R1 及 R1 模型从零开始修剪至可用大小的代码存储库

preview
共1个文件
txt:1个
需积分: 0 0 下载量 127 浏览量 更新于2025-08-30 收藏 389B ZIP 举报
资源下载链接为: https://pan.xunlei.com/s/VOYrnX8RYk575Rs3bfmtsDWAA1?pwd=nrcx 本存储库提出新颖实验方法,对强大的混合专家(MoE)模型DeepSeek-v3进行融合。核心目标是大幅降低其计算与内存占用,让GPU资源有限者也能使用。具体通过主动减少专家数量,结合知识蒸馏技术实现。需特别说明:该项目实验性强且处于积极开发中,结果无法保证,后续计划大幅改进,使用风险自负,代码与方法或有变动。 主要目标是让DeepSeek-v3在消费级硬件上可用,大幅降低计算和内存需求,同时维持合理性能,这需经专家修剪、模型整合、知识蒸馏等多阶段精心设计实现。模型命名遵循“融合专家数量/权重数量”规则,未标注推理时活跃专家数量(因受激活源专家影响),且提供最终模型与未加热模型(微调建议用未加热模型)。 包括Top-k修剪(选每层最常激活的k个专家)、激活聚类(按专家共同激活模式聚类)、状态聚类(按专家输出状态相似性聚类)、渐进式合并(迭代减半专家数量,中间微调)、多重化(融合专家并给隐藏状态加偏差项)、融合LoRA(结合专家权重加LoRA项)、LoRA混合(分解专家为核心与LoRA专家混合)。 融合专家权重用多SLERP、SCE、朴素平均等技术。当前“多重化+LoRA混合”前景较好,且有三点关键缩放特性:专家数量与模型性能呈线性关系;修剪蒸馏损失未饱和,符合LLM训练缩放规律;LoRA混合等级可控制知识恢复参数,呈多项式缩放。此外,最初用dolphin-r1数据集训练效果不佳,最终改用UltraChat+LIMO额外数据。 含AWQ单层加载、AWQ去量化与DoRA合并、VRAM管理、DoRA层实现、专家分析、传统FP8线性层、渐进式专家合并、专家复用、融合专家层等实用工具与技术。 项目实验性强、开发中,代码与方法或变动,性能和稳定性不保
身份认证 购VIP最低享 7 折!
30元优惠券