大模型的强化学习对齐(RLHF)阶段常采用近端策略优化算法PPO(Proximal Policy Optimization)来优化模型,使其输出更符合人类偏好。然而,PPO在大模型上的应用也暴露出一些问题,例如需要训练一个额外的价值网络(critic)来估计策略的价值,这不仅增加了内存和算力开销,也给训练稳定性带来了挑战。在近期的DeepSeek论文中,研究者提出了一种改进的策略优化方法GRPO(Group Relative Policy Optimization,群体相对策略优化)。GRPO通过引入“群体比较”的思想,避免使用单独的价值网络,显著简化了算法结构,并提升了训练效率和稳定性。本文将深入剖析GRPO的训练原理,与PPO的异同,以及这些改进在大语言模型对齐实践中的效果。
PPO方法的简要回顾
为了更好地理解GRPO,我们先简要回顾PPO的原理。PPO是深度强化学习中常用的策略梯度算法,它属于Actor-Critic框架:包含一个策略模型(actor)和一个价值函数模型(critic)。在RLHF情境下,策略模型就是我们的语言模型,价值模型用于估计给定输入下策略的预期奖励(通常是由人类偏好训练的奖励模型给出的分数)。PPO通过反复采样交互数据并更新策略,实现让模型产出更高奖励的输出。
PPO的核心在于重要性采样和剪切(clipping)机制。策略梯度的目标是最大化期望奖励