2021 年 5月 25 日随笔档案 - 芋圆院长

2021年5月25日

摘要：蒙特卡罗方法在没有环境模型的基础上，直接从经验中学习，无需获知环境的全部信息。动态规划从其它的已经学习到的估计值去更新估计值。TD则结合了这两种方法的优点，且不需要等到片段结束。对于控制问题，也就是寻找一个最优策略，DP、TD和蒙特卡罗方法都是用一些GPI的变量。不同之处在于它们对于预测问题的求解阅读全文

posted @ 2021-05-25 10:46 芋圆院长阅读(182) 评论(0) 推荐(0) 编辑

芋圆院长

公告