2020 年 5月 28 日随笔档案 - 渣渣辉啊

2020年5月28日

DQN（Deep Q-learning）入门教程（三）之蒙特卡罗法算法与Q-learning算法

摘要：蒙特卡罗法在介绍Q-learing算法之前，我们还是对蒙特卡罗法（MC）进行一些介绍。MC方法是一种无模型（model-free）的强化学习方法，目标是得到最优的行为价值函数$q_*$。在前面一篇博客中，我们所介绍的动态规划算法则是一种有模型的算法。那么问题来了，什么是模型（model）？模型其实阅读全文

posted @ 2020-05-28 02:37 渣渣辉啊阅读(4791) 评论(0) 推荐(0) 编辑

于风‘s blog

「博学之，审问之，慎思之，明辨之，笃行之」

公告