MDP回顾

1.以加速度作为action,以位置和速度作为state,实现的是值迭代的方式。利用min公式计算G值,DP和RTDP的不同,DP在每个节点的迭代次序会影响收敛速度,DP会将整个

地图的节点都会遍历一遍。因此效率会不高,同时其在开始时不会对G值进行初始化。RTDP会在建图时进行初始化,同时在选择下一个点时利用的是贪婪策略。同时会对轨迹进行

备份。效率会高一些。

2.从终点开始往前开始做优化。

马尔科夫决策树MDP基本流程梳理完。可以暂时放下。

posted on 2021-12-22 13:06  xiegangqingnian  阅读(36)  评论(0编辑  收藏  举报

导航