📖标题:Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation
🌐来源:arXiv, 2508.02618
🌟摘要
奖励模型 (RM) 作为大型语言模型 (LLM) 从人类反馈 (RLHF) 强化学习的核心组件,负责为生成的响应提供奖励信号。然而,RM 中的主流偏好建模在令牌级交互方面是不够的,这使得其判断信号容易受到错误定位注意力对上下文的攻击。这源于两个基本限制:(1)当前的偏好建模采用仅解码器的架构,其中单向因果注意机制导致提示响应序列中的前向衰减序列内注意力。(2) 独立的连体编码范式导致所选序列和拒绝序列之间缺乏令牌级序列间注意力。为了解决这个“注意力黑客”,我们提出了“交互蒸馏”,这是一种通过注意力级优化进行更充分的偏好建模的新训练框架。该方法引入了基于交互的自然语言理解模型作为教师,通过综合注意力提供复杂的令牌交互模式,并通过注意力对齐目标指导偏好建模来模拟教师模型的交互模式。通过广泛的实验,与最先进的针对数据噪声的 RM 优化方法相比,交互蒸馏已经证明了它能够提供更稳定和可概括的奖励信号,突出了注意力黑客构成了 RM 中更根本的限制。
🛎️文章简介
🔸研究问题:如何缓解偏好基础奖励建模中的注意力劫持问题?
🔸主要贡献:论文提出了一种名为“互动蒸馏”的新框架,通过引入基于互动的自然语言理解模型,提高偏好基础奖励建模的令牌级交互能力,从而生成更稳定和通用的奖励信号。
📝重点思路
🔸提出了“互动蒸馏”框架,使用一个互动型自然语言理解(NLU)模型作为教师模型,来提取全面的注意力图。
🔸在偏好建模中,通过模拟教师模型的注意力计算,重现教师的交互模式。
🔸设计一个注意力优化目标,将偏好模型中的模拟注意力图与教师模型的真实注意力图进行对齐。
🔎分析总结
🔸实验结果表明,ID-RM,在RLHF任务中生成的策略模型,与人类偏好高度一致,展现出更强的有害性场景表现。
🔸ID-RM在OOD偏好感知任务中也取得了最高的平均准确率,证明了其生成的奖励信号的稳定性和通用性。
🔸注意力机制的改善,特别是在令牌间的交互感知中,显著提升了奖励模型的性能和语义理解能力。
💡个人观点
论文系统性地分析并提出解决“注意力劫持”现象的方法,通过引入互动蒸馏,能显著提升偏好基础奖励建模的性能,改变了以往仅关注数据噪声的优化思路。