强化学习:算法历程与优劣
1.Monte Carlo 估算V值
内容:
G值:每次到最终状态获得的奖励总和
当前状态为S0,一直到最终状态后,回溯计算G值。一直往前把每一步得到的奖励r都加起来,再乘以一定的折扣率gramma,就能够得到这一条路的G值。同时,一个状态下,有很多条路径可以走到最终状态,所以:
S0状态下的V值=所有G值相加/这个状态下一直到最终状态的路径的个数
所以可以说,V值是G值的平均。
缺点:
如果很难走到最终状态,那么回溯就很慢,求G值就很慢,所以V值更新的也就慢,效率不高。
优化:
不一定要等所有的G值都回来了再求V值,可以回来一个G值就估算一下V值,然后慢慢调整。
怎样调整?
新平均 = 旧平均 + 步长 * (新加入的元素 - 旧平均)
新平均:新的V值
旧平均:旧的V值
步长:人为设置的超参数
新加入的元素:刚回来的G值
2.TD(时序差分)估算V值
内容:
只需要走N步就进行回溯,而不用走到最终这状态再进行回溯。<