程序员必读收藏:投机解码技术深度解析 - 大模型推理加速的终极指南

投机解码是提升大模型推理速度的关键方式之一,其优势在于利用 drafter-then-verfiy的范式,很大程度解决了自回归解码一次仅生成一个token的局限,很多推理架构也配置了该特性。本文围绕投机解码主要讨论以下问题:

1)投机解码的定义和组成部分drafter和verfiy介绍
2)两类草稿模型设计的过程以及优缺点。
3)介绍贪婪解码和投机采样,两种验证规则如何平衡输出质量和效率。

1,投机解码定义和公式

1.1,投机解码定义 speculative decoding

投机解码是一种先草稿后验证(Draft-then-Verify)的解码范式,在每一步解码过程中,草稿模型先高效的生成多个草稿token,然后使用目标大语言模型,一次性的并行验证所有草稿token是否可接收,进而达到一次解码输出多个token的效果,实现大模型推理速度的加倍。

由定义可知,投机解码主要由两部分组成:Drafting 草稿模型和 Verification验证规则。

在这里插入图片描述

为了方便投机解码的公式定义,先来看下必要的自回归解码公式。

给定输入序列 ,自回归解码大模型 ,其生产下一个token 的公式为:

其中的q表示自回归解码模型在给定输入数列情况下,得到的条件分布概率。 从q采样得到输出token x。

1.2,Drafting 公式

草稿模型 ,主要任务是根据输入序列 ,高效的生成K个未来草稿输出 。

其中K表示草稿模型预测的token数, 表示各种草稿模型设计实现, 表示K个条件概率分布。

1.3,Verification 公式

草稿模型生成了K个草稿token,需要使用目标大语言模型 进行验证,并根据接受规则检验草稿token是否可接收。

通过目标大模型一次并行得到K个草稿模型的条件概率分布。之后需要使用验证规则 验证是否可接收。

通过以上公式可知:最终大模型的解码速度取决于,每一步解码中多个草稿token 的接收率。而接收率由多个因素决定,包括:草稿token的质量,验证标准,草稿模型和目标模型的一致性。

首先从drafter的生成token的质量说起。

2,草稿模型 drafter

草稿模型对推理速度有重大影响,关键体现在两个方面,草稿模型的推理准确度(高质量)和草稿模型推理延时。其主要解决的问题是,如何在较低的推理延时下保证高质量的输出。目前主流的草稿模型设计分为以下几类:独立草稿生成(Independent Drafting)和 自草稿生成(Self-Drafing)

2.1 独立草稿生成 Independent Deafting

模型:

一般采用与目标大模型同系列的,独立小型语言模型作为草稿生成模型,如 Llama-7B、Mistral-7B 等。而目标模型通常为上百亿的大语言模型,如 Llama-70B、GPT-4、PaLM 等。

优势:

  • 推理延时低:小型草稿模型参数少、计算量小,单步生成速度远快于目标大模型,能快速产出批量草稿序列。
  • 可针对性优化:草稿模型可独立进行轻量化训练或微调,专门优化草稿生成的准确率,提升与目标模型输出分布的匹配度,无需改动目标大模型,灵活性高。
  • 资源占用可控:小型模型的内存占用和计算资源需求低,便于部署和并行处理。

不足:

  • 模型分布不匹配:如果存在同系列的模型,还比较容易对齐。如果是不同架构,草稿模型与目标大模型的训练数据分布、语义理解能力存在差异,草稿序列与目标模型预期输出偏差较大,接受率低,导致目标模型拒绝草稿的比例高,需要频繁进行修正性生成,反而增加整体推理成本。
  • 额外维护成本:需单独维护草稿模型的训练、更新和部署,增加了模型管理的复杂度;若草稿模型与目标模型更新不同步,可能进一步加剧分布不匹配问题。

2.2 自草稿生成 Self-Drafing

模型:

仅依赖目标大模型自身完成草稿生成,通过调整生成策略,如低温度采样、小批次快速生成、截断式解码等,产出草稿序列,无需引入额外模型。

优势:

  • 分布一致性高:草稿序列与目标模型的输出源自同一模型,分布完全匹配,接受率显著高于独立草稿模型,减少修正次数,提升投机解码的整体效率。
  • 无额外资源消耗:无需部署和维护独立草稿模型,节省内存、存储和算力资源,尤其适合对资源成本敏感的场景。
  • 质量可控性强:可通过调整目标模型的生成参数(如采样温度、top-k 值)平衡草稿质量与速度,且草稿质量上限与目标模型一致,能更好支撑高质量输出需求。

不足:

  • 推理延时较高:目标大模型参数规模大,即使采用轻量化生成策略,单步草稿生成速度仍慢于小型独立模型,可能削弱投机解码的提升效果,尤其在长序列生成场景中延时优势不明显。
  • 策略平衡难度大:若为降低延时而过度简化生成策略(如减少解码步长、采用贪心采样),可能导致草稿质量下降;若优先保证质量,则难以显著降低延时,难以在 “低延时” 与 “高质量” 间找到最优平衡点。
  • 灵活性受限:草稿生成逻辑与目标模型深度绑定,无法像独立草稿模型那样针对草稿任务单独优化(如专门训练草稿生成能力),适配不同场景的调整空间较窄。

3,验证 verification 设计

在解码的每一步,生成的多个草稿token需要经过并行的验证,来保持与大语言模型输出的一致性。验证规则大体可分为:贪婪解码和投机采样。

3.1,贪婪解码 Greedy Decoding

贪婪解码就是每次仅选择概率字符最大作为输出token。对于k个草稿token通过以下公式获得。

定义草稿token第一个验证失败的token位置为c,称之为分岔点。在分岔点之后的草稿token会被丢弃。分岔点处的token使用大语言模型模型的top-one输出代替。

小结:贪婪解码一般导致较低的接收率,因为只有和大模型top-one输出相同的草稿token才会被接收。

3.2,投机采样 Speculative Sampling

为了保证高的接收率同时保证输出分布和目标大语言模型保持一致,设计了投机采样。

公式中r是从0到1均匀分布中取到的随机数, 和是关于草稿token 在草稿模型和目标大语言模型的条件概率。由公式可知到 时,草稿token时被接收的,反之被拒绝。

在分岔点c的token,采用了修正规则,重构分岔点 c 处的概率分布后,重新进行随机采样得到token。

通过对比大小模型的概率差,构建新分布,让分岔点的概率即保留了小模型 “快速草稿” 的效率,又使用大模型高置信度进行了修正。

小结:以上投机采样的token输出分布经过多位学者的理论证明,是和大模型输出token的分布一致的,所以被广泛的采用。

4,总结

通过介绍投机解码的定义和公式,也算是对其提高推理的速度的原理略知一二了。有几个关键的问题:

  • • 如何平衡草稿模型生成效率和生成草稿token的准确度。

通过增大草稿小模型,复杂化生成策略等,提升了草稿token的质量后,其生成的速度会降低。但高效的生成速度,可能会影响质量,导致较低的接收率影响整体的推理速度。目前的解决方案是,将小的草稿模型和目标大语言模型进行对齐(Behavior Alignment)。对齐的方式一般采用知识蒸馏(Knowledge Distillation),也存在一些潜在的方向值得研究[1]

  • • 如何的将投机解码整合到其它先进技术中。

现在基于文本的投机解码开始大量应用,但是对于多模态的解码,仍有大量的工作需要研究。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值