MDP回顾
1.以加速度作为action,以位置和速度作为state,实现的是值迭代的方式。利用min公式计算G值,DP和RTDP的不同,DP在每个节点的迭代次序会影响收敛速度,DP会将整个
地图的节点都会遍历一遍。因此效率会不高,同时其在开始时不会对G值进行初始化。RTDP会在建图时进行初始化,同时在选择下一个点时利用的是贪婪策略。同时会对轨迹进行
备份。效率会高一些。
2.从终点开始往前开始做优化。
马尔科夫决策树MDP基本流程梳理完。可以暂时放下。
posted on 2021-12-22 13:06 xiegangqingnian 阅读(36) 评论(0) 编辑 收藏 举报