2019年2月17日

强化学习4-时序差分TD

摘要：之前讲到强化学习在不基于模型时可以用蒙特卡罗方法求解，但是蒙特卡罗方法需要在每次采样时生产完整序列，而在现实中，我们很可能无法生成完整序列，那么又该如何解决这类强化学习问题呢？由贝尔曼方程 vπ(s)=Eπ(Rt+1+γRt+2+γ2Rt+3+...|St=s) 推导可得 vπ(s)=Eπ(Rt+ 阅读全文

posted @ 2019-02-17 22:16 努力的孔子阅读(589) 评论(0) 推荐(1) 编辑

强化学习3-蒙特卡罗MC

摘要：之前讲到强化学习可以用马尔科夫决策过程来描述，通常情况下，马尔科夫需要知道 {S A P R γ}，γ是衰减因子，那为什么还需要蒙特卡罗呢？首先什么是蒙特卡罗？蒙特卡罗实际上是一座赌城的名字，蒙特卡罗方法是冯诺依曼用这座赌城的名字起的。蒙特卡罗方法的主要思想是：当求解的问题是某随机事件出现阅读全文

posted @ 2019-02-17 15:43 努力的孔子阅读(364) 评论(0) 推荐(1) 编辑

2019年2月17日

导航