DPO:直接偏好优化简化语言模型的偏好训练

 人工智能咨询培训老师叶梓 转载标明出处

如何精确控制大规模无监督语言模型(LMs)的行为一直是一个挑战。这些模型虽然通过大量数据学习到了广泛的世界知识和一些推理技能,但由于其训练的无监督性质,使得它们的行为难以精确控制。现有的方法通过收集人类对模型生成内容的相对质量标签,然后通过人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)对无监督LM进行微调,以使其行为与这些偏好对齐。然而,RLHF是一个复杂且常常不稳定的过程,它首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大型无监督LM进行微调,以最大化估计的奖励,同时不过分偏离原始模型。

斯坦福大学的研究团队提出了一种名为“直接偏好优化”(Direct Preference Optimization, DPO)的新方法。DPO通过一种新的奖励模型参数化方法,使得可以直接提取相应的最优策略,而不需要复杂的强化学习过程。DPO算法稳定、高效且计算成本低,消除了在微调过程中从LM采样或进行大量超参数调整的需要。图 1展示了直接偏好优化(DPO)与现有方法的区别。

论文链接:https://arxiv.org/pdf/2305.18290

方法

DPO的核心思想是利用奖励函数到最优策略的解析映射,将奖励函数上的损失函数转换为策略上的损失函数。这种方法避免了显式拟合独立的奖励模型,同时在现有的人类偏好模型(如Bradley-Terry模型)下进行优化。策略网络在DPO中既代表了语言模型,也隐式地代表了奖励模型。

研究者从与先前工作相同的强化学习目标出发,通过一系列数学推导,得到了最优策略的表达式。这个表达式涉及到一个分区函数Z(x),它在实际应用中估计起来可能很昂贵。然而,通过重新排列和一些代数操作,研究者能够用最优策略πr、参考策略πref和未知的分区函数Z来表示奖励函数。特别地,Bradley-Terry模型仅依赖于两个完成之间的奖励差异,这使得分区函数在替换过程中被消去,从而可以用最优策略和参考策略来表示人类偏好概率。

研究者分析了损失函数LDPO的梯度:LDPO损失函数的梯度增加了优选完成(preferred completions)的可能性,并减少了不优选完成(dispreferred completions)的可能性。这些例子的权重取决于隐式奖励模型对不优选完成的评分,按β进行缩放,即隐式奖励模型对完成的排序错误程度,这考虑了KL约束的强度。

DPO的一般流程包括两个步骤:

1)对于每个提示x,采样完成y1, y2,并用人类偏好进行标记,构建偏好的离线数据集D;

2)优化语言模型πθ,以最小化给定πref和D以及期望的β下的LDPO。在实践中,研究者希望能够重用公开可用的偏好数据集,而不是生成样本和收集人类偏好。由于偏好数据集是使用πSFT采样的,因此通常初始化πref = πSFT。然而,当πSFT不可用时,研究者通过最大化优选完成(x, yw)的可能性来初始化πref。

研究者进一步解释了DPO方法,并提供了理论支持,将DPO的优势与RLHF中使用的演员-评论家算法(如PPO)的问题联系起来。研究者定义了奖励函数之间的等价关系,并提出了两个引理来证明在Plackett-Luce偏好框架下,同一类的两个奖励函数产生相同的偏好分布,并且同一等价类中的两个奖励函数在受约束的强化学习问题下产生相同的最优策略。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

实验

实验设置:

情感控制生成:使用IMDb数据集中的电影评论前缀作为输入x,策略需要生成具有积极情感的文本y。为了进行控制评估,研究者使用预训练的情感分类器生成偏好对。

摘要生成:输入x是Reddit论坛帖子,策略必须生成帖子主要内容的摘要y。使用了Reddit TL;DR摘要数据集和由Stiennon等人收集的人类偏好。

单轮对话:输入x是人类查询,可以是任何问题或请求。策略必须产生对用户查询有帮助和吸引人的响应y。研究者使用了Anthropic Helpful and Harmless对话数据集。

评估方法:

为了分析算法在优化受约束的奖励最大化目标方面的有效性,研究者评估了每个算法在实现奖励和与参考策略的KL散度之间的权衡。

在现实世界中,真实的奖励函数是未知的,因此研究者使用GPT-4作为人类评估摘要质量和响应有帮助性的代理,来评估算法。

实验结果:

图2展示了不同算法在情感设置中的奖励-KL边界。DPO在所有KL值下都提供了最高的期望奖励,展示了优化的质量。

在TL;DR摘要任务中,DPO在0.0的采样温度下达到了约61%的胜率,超过了PPO在0.0采样温度下57%的性能。DPO在不同的采样温度下也显示出比PPO更好的鲁棒性。

在单轮对话任务中,DPO是唯一在Anthropic HH数据集中超过优选完成的方法,并且提供了与计算成本较高的Best of 128基线相似或更好的性能。

图3进一步展示了DPO在Anthropic-HH单轮对话中的胜率,以及在训练过程中不同采样温度下的胜率演变。DPO在训练过程中对数据集标签的改进在不同采样温度下相对稳定。

表 1为在CNN/DailyMail数据集上,PPO和DPO算法在不同采样温度下的GPT-4胜率与地面真相摘要的比较。DPO继续以显著的优势超越PPO策略,这为DPO策略与PPO策略的泛化能力提供了初步证据。

研究者通过人类研究验证了GPT-4判断的可靠性(表2)。研究发现,GPT-4的判断与人类的判断一致性与人类评价者之间的一致性相似或更高,这表明GPT-4是评估的合理代理。

这些实验结果表明,DPO算法在几乎不需要调整超参数的情况下,就能在多个任务上实现与或优于现有强基线算法(如使用PPO的RLHF)的性能,同时在计算上更加高效。

<think>好的,用户现在问的是“DPO偏好优化”,我需要先弄清楚这是什么。首先,我回忆一下之前学过的内容,DPO可能是指Direct Preference Optimization,也就是直接偏好优化。这是不是和强化学习有关?好像之前有接触过相关的概念,比如RLHF(基于人类反馈的强化学习),而DPO可能是它的一个变种或改进方法。 用户可能对机器学习中的优化方法感兴趣,特别是偏好学习方面。他们可能是在研究如何更高效地训练模型,使其符合人类的偏好,比如在对话生成、推荐系统等场景中的应用。需要确认DPO的基本概念、工作原理,以及与RLHF的区别和优势。 接下来,我需要确保信息的准确性。DPO是否确实是Direct Preference Optimization的缩写?是的,根据一些论文和资料,DPO是一种直接优化人类偏好的方法,避免了传统RLHF中的复杂步骤,比如奖励模型的训练强化学习的应用。这样可能减少了计算成本和训练的不稳定性。 然后要组织回答的结构,可能需要分点介绍:定义、工作原理、优势、应用场景、与RLHF的对比等。同时要注意使用中文,并且按照之前用户要求的格式,比如数学公式用$$...$$,行内用$...$,保持清晰的结构。 需要检查是否有相关的数学公式,比如DPO的目标函数。根据论文,DPO通过重新参数化,将奖励函数与策略直接联系起来,可能涉及到概率比的对数形式。例如,目标函数可能类似于$\mathbb{E}_{(x,y_w,y_l)} \left[ \log \sigma(\beta (\log \frac{\pi(y_w|x)}{\pi_{ref}(y_w|x)} - \log \frac{\pi(y_l|x)}{\pi_{ref}(y_l|x)})) \right]$,其中$\beta$是温度参数,$\pi$是当前策略,$\pi_{ref}$是参考策略。 用户可能还想知道DPO的应用实例,比如在语言模型对齐中的应用,或者与其他方法相比的优势,比如更稳定、更高效。需要举一些例子,比如在对话生成中,DPO可以直接优化生成回复的人类偏好,而不需要额外的奖励模型。 同时,要确保回答的可靠性和准确性,可能需要引用相关的研究论文,比如DPO最初提出的论文,或者权威机构的解释。此外,要注意法律和道德问题,比如在数据使用和隐私保护方面的考量,虽然用户没有明确提到,但作为渗透测试相关的知识,可能用户有安全方面的背景,可以适当提及。 最后,总结部分需要强调DPO的价值和适用场景,帮助用户理解何时应该选择DPO而不是其他方法。可能还需要指出当前的挑战或发展趋势,比如DPO在处理大规模数据时的扩展性,或者与其他技术的结合。 现在需要把这些思考整理成结构化的回答,确保符合用户要求的格式,使用清晰的中文,正确应用数学公式,并且分点说明,帮助用户逐步理解DPO偏好优化的核心内容。</think>#### DPO直接偏好优化)讲解说明 --- ##### 1. **定义与目标** **直接偏好优化(Direct Preference Optimization, DPO)** 是一种用于对齐机器学习模型与人类偏好训练方法。其核心目标是通过**直接利用偏好数据**(例如人类对模型输出的排序),调整模型参数,使生成结果更符合人类期望。 - **对比传统方法**:传统方法如RLHF(基于人类反馈的强化学习)需分步训练奖励模型和策略模型,而DPO通过数学优化绕过奖励建模,直接优化策略。 --- ##### 2. **工作原理** ###### **关键公式推导** DPO基于**Bradley-Terry偏好模型**,假设人类偏好概率与模型生成结果的奖励差值相关: $$ P(y_w \succ y_l | x) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))} $$ 其中,$y_w$和$y_l$分别表示“更优”和“更劣”的输出,$r(x,y)$为隐式奖励函数。 通过**策略参数化奖励函数**,将奖励与策略$\pi$关联: $$ r(x,y) = \beta \log \frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)} $$ ($\pi_{\text{ref}}$为参考策略,$\beta$为温度参数) 最终,DPO的损失函数为: $$ \mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_w,y_l)} \left[ \log \sigma\left( \beta \left( \log \frac{\pi(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \log \frac{\pi(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right) \right] $$ ($\sigma$为Sigmoid函数) --- ##### 3. **核心优势** | 优势 | 说明 | |---------------------|----------------------------------------------------------------------| | **无需奖励模型** | 直接优化策略,省去RLHF中奖励模型训练步骤,降低复杂性。 | | **计算效率高** | 单阶段训练,减少对强化学习框架(如PPO)的依赖,节省资源。 | | **稳定性强** | 避免奖励模型过拟合或高方差问题,提升训练收敛性。 | --- ##### 4. **应用场景** - **语言模型对齐**:优化对话助手生成符合人类价值观的回复(如无害性、真实性)。 - **推荐系统**:根据用户点击/评分数据,直接调整推荐策略。 - **机器人控制**:通过人类对动作序列的偏好反馈,优化决策策略。 --- ##### 5. **对比RLHF** | 维度 | RLHF | DPO | |---------------|---------------------------------------|--------------------------------------| | **流程** | 需训练奖励模型 → 强化学习优化策略 | 直接优化策略,无需显式奖励模型 | | **计算成本** | 高(需多阶段训练) | 低(单阶段端到端优化) | | **实现难度** | 复杂(需调优PPO等算法) | 简单(仅需梯度下降) | --- ##### 6. **挑战与局限** - **数据依赖性强**:依赖高质量的偏好标注数据,噪声数据易导致模型偏差。 - **参考策略限制**:若$\pi_{\text{ref}}$与目标策略差异过大,可能影响优化效果。 - **多目标平衡**:需额外设计以平衡不同偏好维度(如相关性 vs. 安全性)。 --- ##### 7. **发展趋势** - **大规模应用**:结合大语言模型(LLM)微调,提升生成内容的可控性。 - **混合方法**:与对比学习、课程学习结合,增强对稀疏偏好数据的适应性。 - **自动化标注**:利用AI辅助生成偏好数据,降低人工标注成本。 --- #### 总结 DPO通过数学重构将复杂的强化学习问题转化为直接的策略优化任务,成为对齐AI模型与人类偏好的高效工具。其简化流程、降低计算开销的特点,使其在语言模型、推荐系统等领域具有广泛的应用潜力,但需注意数据质量与多目标权衡的挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值