当前最先进的大型语言模型(LLMs)体积过大,难以在消费级 GPU 上加载。超过 120 亿 fp16 参数的 LLM 无法在 24GB 显存的高端 GPU 上运行。
量化是缩小 LLM 体积的有效方法。这是 2023 年提出的两大热门算法:GPTQ 与 bitsandbytes nf4 活跃的研究领域。这两种算法都能在保持下游任务性能的前提下显著减小 LLMs 的体积。
然而,它们也存在明显的缺陷。例如,它们天真地认为所有参数都具有相同的重要性。使用 bitsandbytes 进行 nf4 量化的模型在推理时速度也很慢。
激活感知量化(AWQ)针对这些问题提出了解决方案。AWQ 通过保护重要权重,并采用无需重排序的在线反量化技术来加速推理。
在本文中,我将解释 AWQ 的主要特性。我们将了解如何使用 AutoAWQ 对 LLMs(Llama 3)进行量化。我还对 AWQ 模型的推理速度、显存消耗和困惑度进行了基准测试。
AWQ 由 Lin 等人于 2023 年 6 月提出: