上海交通大学CS博士生
动态规划(DP)是一类优化方法,在给定一个用马尔可夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。对于强化学习问题,传统的DP算法的作用有限。其原因有二:一是完备的环境模型只是一个假设
posted on 2021-02-03 15:50 穷酸秀才大草包 阅读(116) 评论(0) 编辑 收藏 举报