摘要: #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境(MDP)。 在实践中,我们通常对 阅读全文
posted @ 2020-08-06 16:42 feifanren 阅读(685) 评论(0) 推荐(0) 编辑