戳下方名片,关注并星标!
回复“1024”获取2TB学习资源!
👉体系化学习:运维工程师打怪升级进阶之路 4.0
— 特色专栏 —
大家好,我是民工哥!
DeepSeek下一代技术提前曝光!
梁文锋署名论文获 ACL2025 最佳论文奖。
在2025年7月30日于奥地利维也纳举行的ACL 2025颁奖典礼上,由DeepSeek创始人梁文锋作为通讯作者、与北京大学等联合发表的论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》荣获最佳论文奖。
这一荣誉不仅彰显了DeepSeek在人工智能领域的卓越贡献,也预示着下一代大模型技术的重大突破。
该论文提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,实现了长文本处理速度的显著提升。
具体而言,NSA机制采用了一种动态分层的稀疏策略,通过三条并行的注意力分支协同工作:
压缩注意力:负责捕捉粗粒度的全局信息模式,就像快速浏览全文抓住大意。
选择性注意力:专注于序列中最重要的词块,相当于精读关键段落。
滑动注意力:获取局部的上下文信息,确保细节不丢失。
这种设计最精妙的地方在于,它不是简单地丢弃信息,而是通过精心设计的算法平衡了计算密度。
更重要的是,整个架构针对现代GPU硬件进行了深度优化,实现了端到端的原生可训练模式。
在实际测试中,NSA机制展现出了惊人的速度优势。处理64k长度序列时,NSA在解码、前向传播和反向传播的全生命周期中都实现了显著的速度提升:
解码阶段速度提升11.6倍
前向传播提升9倍
反向传播也有6倍的加速
速度快只是NSA的一面,更让人惊讶的是它在各项基准测试中的表现。在通用基准测试中,采用NSA预训练的27B参数模型在9个评测指标中有7个超越了全注意力基线。
特别是在推理相关的基准测试上,DROP提升了0.042,GSM8K提升了0.034,显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。
长文本处理能力的测试结果更是亮眼。在64k上下文的“大海捞针”测试中,NSA在所有位置都实现了完美的检索准确率。
在LongBench基准测试上,NSA取得了0.469的平均分,不仅超越了全注意力基线(+0.032),更是大幅领先其他稀疏注意力方法。
论文一作袁境阳在会上发表演讲,透露NSA技术可以把上下文长度扩展到1百万tokens,这一特性使其成为下一代大模型的理想选择。
结合论文发表于DeepSeek-R1推出之后,且实验设置中提到使用了DeepSeek-R1的蒸馏数据来微调新的模型,业界纷纷猜测,NSA技术将被应用于下一代DeepSeek-V4以及DeepSeek-R2。
DeepSeek提出的NSA机制,不仅解决了长文本处理的致命瓶颈,更揭示了AI技术未来发展的关键路径。
其硬件优化内核设计使实际推理速度与理论加速比高度吻合,彻底打破了“稀疏注意力推理效率低下”的行业魔咒。
此外,NSA机制还为教育、医疗等场景的AI应用打开了新空间,使长文本生成实时性得到显著提升。
👍 既然都看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
公众号读者专属技术群
构建高质量的技术交流社群,欢迎从事后端开发、运维技术进群(备注岗位,已在技术交流群的请勿重复添加微信好友)。主要以技术交流、内推、行业探讨为主,请文明发言。广告人士勿入,切勿轻信私聊,防止被骗。
扫码加我好友,拉你进群
PS:因为公众号平台更改了推送规则,如果不想错过内容,记得读完点一下“在看”,加个“星标”,这样每次新文章推送才会第一时间出现在你的订阅列表里。点“在看”支持我们吧!