2022 年 2月随笔档案 - 静候佳茵

强化学习入门知识与经典项目分析1.3

摘要：上一篇文章推导了贝尔曼方程，这一篇文章来继续分享对应的马尔可夫决策的案例，然后引入策略评估并证明其收敛性。主要的学习资源是四个: B站许志钦老师的视频（主要入门理论）https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0.

538

0

强化学习入门知识与经典项目分析1.2

摘要：我们在上一篇文章中详细推导了马尔可夫奖励过程的贝尔曼公式，这一篇文章重点来推导马尔科夫决策过程的贝尔曼公式。主要的学习资源是四个: B站许志钦老师的视频（主要入门理论）https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0

103

0

强化学习入门知识与经典项目分析1.1

摘要：博客园用markdown语法写的第一篇文章，在这里非常感谢小么VinVin对我的帮助。我先在这里分享一下写强化学习的原因。大三上学期，学院开设了智能车辆规划与决策课程，由于学时的限制，最后决策部分的内容只讲了有限状态机和马尔可夫决策。我利用寒假这段时间，继续补充了强化学习方面的知识，大三下学期这

250

0

1

静候佳茵

02 2022 档案

公告

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论