本文是LLM系列文章,针对《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》的翻译。
摘要
在最小起草延迟和高推测准确性之间取得最佳平衡,以提高大型语言模型的推理速度,仍然是推测解码中的一个重大挑战。本文介绍了Falcon,这是一种创新的半自回归推测解码框架,旨在增强起草者的并行性和输出质量。Falcon采用了耦合顺序扫视蒸馏技术,该技术加强了同一区块内的token间依赖关系,从而提高了猜测的准确性。我们提供了一个全面的理论分析来阐明潜在的机制。此外,我们引入了一个定制设计的解码树,它允许起草者在一次前向传递中生成多个token,并根据需要容纳多个前向传递,从而增加了起草的token数量,显著提高了整体接受率。对MT Bench、HumanEval和GSM8K等基准数据集的全面评估证明了Falcon的卓越加速能力。在Vicuna和LLaMA2 Chat模型系列上测试时,该框架实现了2.91x至3.51x的无损加速比。这些结果超过了现有的LLM推测解码方法,包括Eagle、Medusa、Lookaward、SPS和PLD,同时保持了仅相当于两个Transformer层的紧凑绘图器架构。