2020 年 1月 26 日随笔档案 - 水奈樾

2020年1月26日

【强化学习RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

摘要：本系列强化学习内容来源自对David Silver课程的学习课程链接http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 在上一文介绍了RL基础概念和MDP后，本文介绍了在model-free情况下（即不知道回报Rs和状态转移矩阵Pss 阅读全文

posted @ 2020-01-26 12:56 水奈樾阅读(1615) 评论(0) 推荐(0) 编辑

水奈樾

公告