2018 年 7月 23 日随笔档案 - JinyuBlog

2018年7月23日

摘要：蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似，两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见，Bandit问题比较简单，状态1->动作1->状态1，这个状态转移过程始阅读全文

posted @ 2018-07-23 22:54 JinyuBlog 阅读(530) 评论(0) 推荐(0) 编辑

JinyuBlog

公告