本文是LLM系列文章,针对《Navigating the OverKill in Large Language Models》的翻译。
摘要
大型语言模型经过精心调整,既有益又无害。然而,最近的研究指出了一种潜在的过度使用,这意味着模型可能会拒绝回答善意的查询。在本文中,我们通过探索模型如何处理和确定查询的安全性来研究过度使用的因素。我们的研究结果揭示了模型中捷径的存在,导致人们过度关注“杀死”等有害词汇,强调安全的提示会加剧过度使用。基于这些见解,我们引入了自对比解码(Self-CD),这是一种无训练和模型无关的策略,以缓解这种现象。我们首先通过在响应包括或省略对安全的强调的系统提示时放大模型输出分布的差异来提取这种过度关注。然后,我们通过对比解码来淡化模型的过度关注,从而确定最终的下一个表征预测。经验结果表明,我们的方法实现了拒绝率平均降低20%,而对安全性几乎没有影响。