1、计算action价值,为Q值,QA
2、计算state价值,为V值,可以通过action的Q值计算V值。
3、迭代公式
通过两个公式互相代入可以获得Q值迭代和V值迭代公式
参考
https://blog.csdn.net/waski/article/details/129232346
通过两个公式互相代入可以获得Q值迭代和V值迭代公式
参考
https://blog.csdn.net/waski/article/details/129232346