2020 年 8月 6 日随笔档案 - feifanren

2020年8月6日

摘要： #学习目标 1.了解预测与控制之间的区别 2.知道如何使用MC方法预测状态值和状态-动作值 3.了解基于同策略的首次访问MC控制算法 4.了解异政策的MC控制算法 5.了解加权重要性抽样 6.了解MC算法比动态规划方法的优势 #总结 1.动态规划方法假定完全了解环境（MDP）。在实践中，我们通常对阅读全文

posted @ 2020-08-06 16:42 feifanren 阅读(728) 评论(0) 推荐(0) 编辑

feifanren

公告