
强化学习
文章平均质量分 92
强化学习
AlgoCraft
有好奇心的算法工程师
公众号:AlgoCraft
个人网站:jaykay233.github.io(停更比较久,时机合适会重启更新)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型对齐算法(四): DAPO,VAPO,GMPO,GSPO, CISPO,GFPO
DAPO算法,在GRPO基础上进行四项关键改进:1)非对称剪枝(Clip-Higher),通过设置不同上下界ε_low和ε_high,解决熵崩溃问题;2)动态采样机制,过滤无梯度样本;3)Token级梯度计算,避免长回答权重稀释;4)软长度惩罚,优化截断处理。实验表明DAPO在AIME任务上仅用50%训练步数即达到50分表现。此外,文章还讨论了VC-PPO中的价值预训练和Decoupled-GAE方法,通过分离critic和actor的λ参数,实现更准确的价值估计和更稳定的策略更新。原创 2025-08-18 16:04:05 · 552 阅读 · 0 评论 -
大模型对齐算法(三): DMPO
本文提出DMPO方法,将单回合的DPO扩展至多回合语言代理场景。通过将策略约束替换为状态-动作占用度量约束,并引入长度归一化因子,解决了多回合场景下partition function无法约简的问题。该方法在Bradley-Terry模型中实现轨迹长度归一化,使不同长度轨迹的累积奖励可比,同时通过衰减权重降低后期动作噪声影响。理论推导表明,DMPO能有效减少行为克隆在多回合任务中的累积误差,实现对专家分布的全局逼近。原创 2025-08-18 11:20:06 · 469 阅读 · 0 评论 -
大模型对齐算法(二): TDPO(Token-level Direct Preference Optimization)
TDPO:基于Token级偏好的语言模型优化方法 TDPO(Token-level Direct Preference Optimization)是针对DPO方法在句子级KL散度控制上的局限性提出的改进方案。传统DPO存在KL增长失衡和多样性下降等问题,而TDPO通过将RLHF任务拆分为token级MDP,引入Bellman方程和双向KL约束机制。原创 2025-08-17 19:29:12 · 894 阅读 · 0 评论 -
大模型对齐算法合集(一)
本文系统梳理了大模型对齐的核心算法,重点分析了DPO和PPO的理论框架。通过数学推导证明,DPO的最优策略服从Boltzmann分布,其目标函数可转化为最小化KL散度问题。PPO算法则在RLHF框架下,通过引入KL散度约束实现策略优化,其最优解形式与DPO类似。研究进一步探讨了Token-level PPO的实现,将其建模为最大熵软Q学习问题,并推导出最优策略的解析表达式。理论分析表明,这些对齐算法在数学形式上具有统一性,均可视为带约束的优化问题,其解可表示为基于回报函数的指数加权分布。原创 2025-08-17 18:02:01 · 1503 阅读 · 0 评论 -
从 SFT 到 Self-Rewarding:一文看懂大模型「训练四件套」——SFT / IFT / EFT / RLHF 全流程
这篇文章系统介绍了将7B基础模型升级为ChatGPT级AI助手的四大微调步骤: SFT监督微调:通过标准问答对训练,确保模型回答准确性 IFT指令微调:使用结构化指令数据,提升模型对复杂指令的理解能力 EFT评估微调:训练模型自我评估能力,为后续强化学习做准备 RLHF强化学习:基于人类反馈优化输出,使回答更符合人类偏好 该流程通过逐步优化模型的知识准确性、指令遵循性、评估能力和人类偏好对齐,最终使小模型也能展现大模型的性能。文章包含技术要点、示例说明、训练流程图示和代码示例,完整呈现了模型升级的标准化路径原创 2025-08-17 11:11:17 · 854 阅读 · 0 评论 -
GRPO(Group Relative Policy Optimization)公式速览
GRPO(Group Relative Policy Optimization)公式摘要: GRPO采用组内归一化优势计算,通过组内均值和标准差对奖励进行标准化处理。策略优化采用token级别的裁剪目标函数(公式2),结合KL正则项(公式3)形成最终损失函数(公式4)。与BNPO相比,GRPO使用静态的组内均值-方差归一化,适用于通用场景;而BNPO采用动态Beta分布自适应,更适合二值奖励任务。在HuggingFace TRL实现中,奖励计算通过多个奖励函数并行处理,支持动态奖励调整。原创 2025-08-16 19:39:45 · 1090 阅读 · 0 评论 -
huggingface TRL中是怎么获取参考模型的输出的
HuggingFace TRL 中获取参考模型输出的核心流程如下: 参考模型选择: 直接使用显式传入的ref_model 对于LoRA模型,通过临时禁用Adapter获取基础模型 概率计算: 对完整prompt+response序列进行前向计算 获取response部分的token对数概率 累加得到整句的log p(response|prompt) 高效实现: 使用torch.no_grad()节省内存 支持encoder-decoder和decoder-only架构 通过get_batch_logps()原创 2025-08-16 15:05:01 · 801 阅读 · 0 评论 -
huggingface TRL中的对齐算法: KTO
KTO算法:基于前景理论的单条样本对齐方法 KTO(Kahneman-Tversky Optimization)是一种创新的强化学习对齐方法,其核心创新在于仅需单条样本加二元标签(好/坏)即可训练模型,避免了传统RLHF/DPO方法对成对偏好数据的需求。KTO受前景理论启发,通过收益-损失框架建模人类主观效用。原创 2025-08-16 14:38:28 · 1104 阅读 · 0 评论 -
RLVR(可验证奖励的强化学习):大模型后训练的客观评估策略
RLVR(可验证奖励的强化学习)是当前主流的大模型训练方法,通过预定义规则(如数学答案匹配、代码测试)提供二元奖励信号,替代传统RLHF的主观评估。其核心优势在于客观性、易设计性和防作弊能力,广泛应用于数学推理、代码生成等确定性任务。构建RLVR需关注数据准备、奖励函数设计和验证体系,但存在领域依赖性强和可能窄化模型能力的局限。未来将聚焦垂直领域优化和工业级实施方案,推动技术实际落地。原创 2025-08-14 22:34:47 · 688 阅读 · 0 评论