强化学习note2——value iteration和policy iteration的区别，MC和TD的区别

value iteration和policy iteration的区别
value iteration: ①多次迭代Bellman最优等式和Bellman等式，等价值函数收敛后，②再用价值函数带入贝尔曼等式得到动作价值函数，策略就从最大的动作价值函数选取。（策略没有参与）

policyiteration：①随机选取一个策略policy，用这个policy对Bellman等式进行多次迭代计算直到价值函数收敛，②再用价值函数求得动作价值函数，策略就从最大的动作价值函数选取。③然后用新的策略再进入①计算。
对①②③进行多次迭代直到策略收敛。（策略一直参与）
MC和TD的区别
MC：基本的MC算法是采集n条轨迹，假设计算s1状态的价值函数，先取某一条轨迹中的n个不同时刻s1状态的回报相加再除以n就得到这条轨迹上s1状态的价值函数，然后按此方法计算其他轨迹的s1状态的价值函数，这样就得到n个s1状态的价值函数，最后取平均值即可。

TD：增量型MC算法的变种，它相较于增量型MC算法，不需要agent与环境交互直到得到一条完整的轨迹，它只需要与环境进行一次交互得到一个\(R_{t+1}\)，然后采用DP算法进行迭代计算。
value iteration，policy iteration和MC，TD的区别

value iteration，policy iteration：不仅可以用来对价值函数进行估值，但是需要知道model；还能得到相应的最优的策略

MC，TD：对动作价值函数进行估值，进而用得到最优的策略，不需要知道model

posted on 2021-04-29 11:14 A2he 阅读(616) 评论(0) 收藏举报

刷新页面返回顶部

强化学习note2——value iteration和policy iteration的区别，MC和TD的区别

Zzz_zzZ

公告

导航