Policy Gradient,Reinforce,PPO,GAE,

最新推荐文章于 2025-09-06 03:10:44 发布

大饼博士X

最新推荐文章于 2025-09-06 03:10:44 发布

阅读量981

点赞数 16

CC 4.0 BY-SA版权

文章标签：深度学习

4 篇文章

订阅专栏

正在补充…

参考资料

EasyRL：github，Gitee（国内方便）
人人都能看懂的RL-PPO理论知识
GAE Paper：HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION
【深度强化学习 CS285 2023】伯克利—中英字幕
强化学习算法梳理：从 PPO 到 GRPO 再到 DAPO
https://huggingface.co/blog/NormalUhr/rlhf-pipeline#navigating-the-rlhf-landscape-from-policy-gradients-to-ppo-gae-and-dpo-for-llm-alignment
深度好文！从LLM的视角看策略梯度、PPO、GRPO
《强化学习的数学原理》
知乎：强化学习知识大讲堂
知乎：Actor-Critic算法小结
PPO 算法的37个实现细节
Policy Gradient Algorithms，Author: Lilian Weng
A (Long) Peek into Reinforcement Learning