Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive

本文是LLM系列文章,针对《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的翻译。

Falcon:通过增强的半自回归绘图和定制设计的解码树实现大型语言模型的更快并行推理

摘要

在最小起草延迟和高推测准确性之间取得最佳平衡,以提高大型语言模型的推理速度,仍然是推测解码中的一个重大挑战。本文介绍了Falcon,这是一种创新的半自回归推测解码框架,旨在增强起草者的并行性和输出质量。Falcon采用了耦合顺序扫视蒸馏技术,该技术加强了同一区块内的token间依赖关系,从而提高了猜测的准确性。我们提供了一个全面的理论分析来阐明潜在的机制。此外,我们引入了一个定制设计的解码树,它允许起草者在一次前向传递中生成多个token,并根据需要容纳多个前向传递,从而增加了起草的token数量,显著提高了整体接受率。对MT Bench、HumanEval和GSM8K等基准数据集的全面评估证明了Falcon的卓越加速能力。在Vicuna和LLaMA2 Chat模型系列上测试时,该框架实现了2.91x至3.51x的无损加速比。这些结果超过了现有的LLM推测解码方法,包括Eagle、Medusa、Lookaward、SPS和PLD,同时保持了仅相当于两个Transformer层的紧凑绘图器架构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值