
强化学习进阶【RL Advanced】
文章平均质量分 96
深入介绍强化学习的相关内容,内容主要包含强化学习的进阶内容,需要具备一定的强化学习基础
不去幼儿园
我们终其一生寻找的,应该是自己喜欢的生活,和想成为的人!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【强化学习】深入理解:PPO(Proximal Policy Optimization) 和 TRPO(Trust Region Policy Optimization) 的本质区别
本文对比分析了强化学习中的PPO(Proximal Policy Optimization)和TRPO(Trust Region Policy Optimization)算法。PPO通过裁剪目标函数间接控制策略更新幅度,计算高效且实现简单;而TRPO采用KL散度约束和自然梯度方法,计算复杂但稳定性更高。文章从优化目标、计算复杂度、收敛性、实现难度等方面详细比较了两者的差异,指出PPO更适合大规模应用,TRPO则适用于高精度控制任务。最后总结了两种算法的适用场景和特性差异,为强化学习实践者提供了算法选择参考。原创 2025-07-15 11:18:36 · 1173 阅读 · 61 评论 -
【强化学习】深入理解:基于价值(Value)VS 基于策略(Policy)
强化学习(Reinforcement Learning,RL) 大致可以分为两类:基于价值的算法 和 基于策略的算法、基于Actor-Critic(混合)以及基于模型的。这几类算法分别侧重于不同的学习方法和策略更新方式。原创 2025-04-21 17:11:37 · 2020 阅读 · 58 评论