大型语言模型(LLM)正在改变世界,但要让它们真正为我们所用,就需要让它们理解人类的意图和价值观。强化学习从人类反馈(RLHF)框架应运而生,它通过训练一个奖励模型来评估LLM的输出,并引导LLM朝着人类期望的方向发展。
然而,现有的奖励模型在面对新奇的提示和响应时,往往表现出泛化能力不足的问题。这会导致一个令人头疼的现象:奖励过度优化。简单来说,就是模型过度追求奖励,反而导致实际表现下降。
为了解决这个问题,本文将介绍一种名为可泛化奖励模型(GRM)的新方法,它通过正则化隐藏状态来提升奖励模型的泛化能力。
奖励模型:让LLM知道什么是好,什么是坏
奖励模型就像一个评判者,它根据人类的偏好,对LLM生成的文本进行打分。打分越高,说明LLM的输出越符合人类的期望。
通常,奖励模型的训练基于成对的反馈数据,即给定同一个提示,人类会对两个不同的响应进行比较,并给出自己的偏好。通过学习这些偏好数据,奖励模型可以学习到哪些文本是好的,哪些文本是不好的。
奖励过度优化:模型的“聪明反被聪明误”
虽然奖励模型的初衷是引导LLM更符合人类的期望,但现实情况往往事与愿违。当奖励模型过度优化时,它可能会学到一些“错误的模式”,导致LLM的输出虽然在奖励模型看来很优秀,但实际上却偏离了人类的真实意图。
例如,如果奖励模型只关注文本的长度,那么LLM可能会生成一些毫无意义的长篇大论,只是为了获得更高的奖励。
可泛化奖励模型(GRM):让模型更具“举一反三”的能力
GRM的核心思想是通过正则化隐藏状态来提升奖励模型的泛化能力。隐藏状态是LLM内部处理信息的中间结果,它包含了模型对文本的理解。
GRM保留了LLM的语言模型头部,并通过引入一系列文本生成损失来约束隐藏状态的文本生成能力,同时学习一个奖励头部来预测文本的奖励分数。
文本生成损失:让模型保持“语言能力”
文本生成损失是用来评估LLM生成文本质量的指标。GRM通过引入文本生成损失,可以确保隐藏状态在学习奖励的同时,不会丢失其原本的语言能力。
GRM的优势:高效、稳定、可靠
GRM具有以下优势:
- **高效:**GRM不需要训练多个奖励模型,也不需要额外的训练数据。
- **稳定:**GRM对不同类型的正则化方法都具有良好的适应性。
- **可靠:**GRM能够有效地缓解奖励过度优化问题,并对训练数据中的噪声具有较强的鲁棒性。