摘要: 蒙特卡罗法 在介绍Q-learing算法之前,我们还是对蒙特卡罗法(MC)进行一些介绍。MC方法是一种无模型(model-free)的强化学习方法,目标是得到最优的行为价值函数$q_*$。在前面一篇博客中,我们所介绍的动态规划算法则是一种有模型的算法。那么问题来了,什么是模型(model)?模型其实 阅读全文
posted @ 2020-05-28 02:37 渣渣辉啊 阅读(4791) 评论(0) 推荐(0) 编辑