Policy Gradient,Reinforce,PPO,GAE,

正在补充…

参考资料

  1. EasyRL:githubGitee(国内方便)
  2. 人人都能看懂的RL-PPO理论知识
  3. GAE Paper:HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION
  4. 【深度强化学习 CS285 2023】伯克利—中英字幕
  5. 强化学习算法梳理:从 PPO 到 GRPO 再到 DAPO
  6. https://huggingface.co/blog/NormalUhr/rlhf-pipeline#navigating-the-rlhf-landscape-from-policy-gradients-to-ppo-gae-and-dpo-for-llm-alignment
  7. 深度好文!从LLM的视角看策略梯度、PPO、GRPO
  8. 《强化学习的数学原理》
  9. 知乎:强化学习知识大讲堂
  10. 知乎:Actor-Critic算法小结
  11. PPO 算法的37个实现细节
  12. Policy Gradient Algorithms,Author: Lilian Weng
  13. A (Long) Peek into Reinforcement Learning

Policy Gradient

先跳过,待补充

在这里插入图片描述

 Trajectory  τ = { s 1 , a 1 , s 2 , a 2 , ⋯   , s t , a t } \text { Trajectory } \tau=\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}  Trajectory τ={s1,a1,s2,a2,,st,at}

Reinforce 算法

### 关于策略梯度的学术论文 策略梯度方法是强化学习领域的重要组成部分之一,旨在优化参数化策略函数以最大化长期奖励。这类算法直接在策略空间中进行搜索,从而能够处理连续动作空间的问题[^3]。 #### 经典策略梯度论文推荐: 1. **Policy Gradient Methods for Reinforcement Learning with Function Approximation** 这篇由Sutton等人撰写的经典文章首次提出了基于梯度的方法来解决大规模强化学习问题,并引入了REINFORCE算法作为基础框架[^1]。 2. **Actor-Critic Algorithms** Konda和Tsitsiklis的工作探讨了一类结合价值估计与策略改进的技术——即演员评论家架构,在此结构下可以更高效地更新策略参数[^2]。 3. **Trust Region Policy Optimization (TRPO)** TRPO通过构建信任区域约束条件下的最优化问题,确保每次迭代都能稳定提升性能而不至于因大幅度调整而导致崩溃或发散现象发生[^4]。 4. **Proximal Policy Optimization Algorithms (PPO)** PPO进一步简化并提高了TRPO的实际应用效果,成为当前工业界广泛采用的标准做法之一。该研究不仅保持了原有理论上的优势特性,还增强了计算效率以及易于实现的特点。 ```python import gymnasium as gym import torch.nn.functional as F from stable_baselines3 import PPO env = gym.make('CartPole-v1') model = PPO("MlpPolicy", env, verbose=1) def train_policy_gradient(): model.learn(total_timesteps=int(1e5)) train_policy_gradient() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值