摘要: 蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1->动作1->状态1,这个状态转移过程始 阅读全文
posted @ 2018-07-23 22:54 JinyuBlog 阅读(514) 评论(0) 推荐(0) 编辑