// // // //

2019年2月17日

摘要: 之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解,但是蒙特卡罗方法需要在每次采样时生产完整序列,而在现实中,我们很可能无法生成完整序列,那么又该如何解决这类强化学习问题呢? 由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+ 阅读全文
posted @ 2019-02-17 22:16 努力的孔子 阅读(589) 评论(0) 推荐(1) 编辑
 
摘要: 之前讲到强化学习可以用马尔科夫决策过程来描述,通常情况下,马尔科夫需要知道 {S A P R γ},γ是衰减因子,那为什么还需要蒙特卡罗呢? 首先什么是蒙特卡罗? 蒙特卡罗实际上是一座赌城的名字,蒙特卡罗方法是冯 诺依曼 用这座赌城的名字起的。 蒙特卡罗方法的主要思想是:当求解的问题是某随机事件出现 阅读全文
posted @ 2019-02-17 15:43 努力的孔子 阅读(364) 评论(0) 推荐(1) 编辑