NLP高频面试题(二十二)——deepseek论文中的的GRPO训练原理、和PPO相比有哪些改变,这些改进有什么作用

大模型的强化学习对齐(RLHF)阶段常采用近端策略优化算法PPO(Proximal Policy Optimization)来优化模型,使其输出更符合人类偏好。然而,PPO在大模型上的应用也暴露出一些问题,例如需要训练一个额外的价值网络(critic)来估计策略的价值,这不仅增加了内存和算力开销,也给训练稳定性带来了挑战。在近期的DeepSeek论文中,研究者提出了一种改进的策略优化方法GRPO(Group Relative Policy Optimization,群体相对策略优化)。GRPO通过引入“群体比较”的思想,避免使用单独的价值网络,显著简化了算法结构,并提升了训练效率和稳定性。本文将深入剖析GRPO的训练原理,与PPO的异同,以及这些改进在大语言模型对齐实践中的效果。

PPO方法的简要回顾

为了更好地理解GRPO,我们先简要回顾PPO的原理。PPO是深度强化学习中常用的策略梯度算法,它属于Actor-Critic框架:包含一个策略模型(actor)和一个价值函数模型(critic)。在RLHF情境下,策略模型就是我们的语言模型,价值模型用于估计给定输入下策略的预期奖励(通常是由人类偏好训练的奖励模型给出的分数)。PPO通过反复采样交互数据并更新策略,实现让模型产出更高奖励的输出。

PPO的核心在于重要性采样剪切(clipping)机制。策略梯度的目标是最大化期望奖励

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Chaos_Wang_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值