强化学习中的一些疑惑与求解

本文介绍了强化学习的基础概念,包括Q值与V值的关系、贪心策略等,并概述了几种重要的强化学习算法,如PolicyGradient、TRPO及PPO等。同时探讨了基于值的算法,例如DDPG、TD3和SAC,并解释了重参数技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

大体上,周博磊的课+李宏毅的课+莫凡的课就够入门了,本文是在看课过程中对一些不理解的概念进行梳理和总结过程中搜集到的一些比较好的资料。

总纲:图不错概念;代码流程调参高斯过程强化学习中的数学基础;Boostrapping(感觉和统计学的并没有什么卵关系);总结

几个学习的网址:Spinning up;basline强化学习笔记

Q值和V值的互相转换Q和V本质上可以通过Bellman方程相互转化

贪心策略:UCB和e贪心Thomson采样

Policy-Iteration & Value iteration:还是结合例子看比较直观;策略迭代(选定策略,更新策略),价值迭代(多次迭代直至收敛)

preview

DP,MC,TD:Model-Free Prediction,无需进行Policy/Value这样的Model-based的方法

On policy,Off policy:其实on policy会按着既定策略去走(Sarsa),而off policy会随机epsilon贪心策略(QLearning);几个重要问题

价值函数近似:近似

强化学习收敛:强化学习训练收敛性

 

State-of-Art的一些算法

下面是Policy Based的算法(Policy Gradient,A3C的改进)

Policy gradient:MC数学推导直观理解,异同减少Varience

重要性采样:原理实现例子

TRPO:Fisher Information;先了解Natural Gradient Decent讲解,其实直观理解就是新策略不能相比老策略变化过大,使用KL散度进行限制。

PPO:其实就是把KL散度使用拉格朗日放入优化目标

下面的是无需importance sampling的Value Based,直接用Bellman方程进行优化。(对于Qlearning的改进)

DDPG:DDPG

TD3: 白话强化学习

SAC:SAC(可以系统学习这个专栏笔记)

重参数Trick:就是从另一个可微的分布采样,从而实现对不可微分布的期望的估计

 

Other Topics

Model-based:预测下一个state

逆强化学习:逆强化学习模仿学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Data_Designer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值