感谢您的下载,由于资源文件过大,请到此处下载资源:https://pan.xunlei.com/s/VOYrnX8RYk575Rs3bfmtsDWAA1?pwd=nrcx
一个致力于将 DeepSeek V3、R1 及 R1 模型从零开始修剪至可用大小的代码存储库
需积分: 0 127 浏览量
更新于2025-08-30
收藏 389B ZIP 举报
资源下载链接为:
https://pan.xunlei.com/s/VOYrnX8RYk575Rs3bfmtsDWAA1?pwd=nrcx
本存储库提出新颖实验方法,对强大的混合专家(MoE)模型DeepSeek-v3进行融合。核心目标是大幅降低其计算与内存占用,让GPU资源有限者也能使用。具体通过主动减少专家数量,结合知识蒸馏技术实现。需特别说明:该项目实验性强且处于积极开发中,结果无法保证,后续计划大幅改进,使用风险自负,代码与方法或有变动。 主要目标是让DeepSeek-v3在消费级硬件上可用,大幅降低计算和内存需求,同时维持合理性能,这需经专家修剪、模型整合、知识蒸馏等多阶段精心设计实现。模型命名遵循“融合专家数量/权重数量”规则,未标注推理时活跃专家数量(因受激活源专家影响),且提供最终模型与未加热模型(微调建议用未加热模型)。 包括Top-k修剪(选每层最常激活的k个专家)、激活聚类(按专家共同激活模式聚类)、状态聚类(按专家输出状态相似性聚类)、渐进式合并(迭代减半专家数量,中间微调)、多重化(融合专家并给隐藏状态加偏差项)、融合LoRA(结合专家权重加LoRA项)、LoRA混合(分解专家为核心与LoRA专家混合)。 融合专家权重用多SLERP、SCE、朴素平均等技术。当前“多重化+LoRA混合”前景较好,且有三点关键缩放特性:专家数量与模型性能呈线性关系;修剪蒸馏损失未饱和,符合LLM训练缩放规律;LoRA混合等级可控制知识恢复参数,呈多项式缩放。此外,最初用dolphin-r1数据集训练效果不佳,最终改用UltraChat+LIMO额外数据。 含AWQ单层加载、AWQ去量化与DoRA合并、VRAM管理、DoRA层实现、专家分析、传统FP8线性层、渐进式专家合并、专家复用、融合专家层等实用工具与技术。 项目实验性强、开发中,代码与方法或变动,性能和稳定性不保

hub_cross
- 粉丝: 1
最新资源
- 工程施工图纸管理程序.pdf
- EHS工作年终总结.pptx
- 起重卷扬机工安全规程.doc
- 主管人员如何进行预算管理.doc
- 第06章-齿轮传动(part1).pdf
- 焊接通用作业指导书.doc
- 岩土物探在公路路基填方数量检测中的应用.doc
- 易居如何做好房地产市场研究.ppt
- sbs沥青卷材屋面防水作业指导书.doc
- 基于单片机火灾自动报警系统的设计与研究本科毕业论文.doc
- 42信息系统安全技术导学案-教科版高一信息技术必修二(1).docx
- 索赔意向通知书.docx
- DIY蛋糕店创业计划书.ppt
- 美术欣赏--陶瓷花瓶-.doc
- 【精品】会计个人工作总结范文合集六篇.doc
- 班主任与班干部培养.ppt