志存高远,做最好的自己|

静候佳茵

园龄:4年10个月粉丝:21关注:1

02 2022 档案

强化学习入门知识与经典项目分析1.3
摘要:上一篇文章推导了贝尔曼方程,这一篇文章来继续分享对应的马尔可夫决策的案例,然后引入策略评估并证明其收敛性。 主要的学习资源是四个: B站许志钦老师的视频(主要入门理论)https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0.
538
0
0
强化学习入门知识与经典项目分析1.2
摘要:我们在上一篇文章中详细推导了马尔可夫奖励过程的贝尔曼公式,这一篇文章重点来推导马尔科夫决策过程的贝尔曼公式。 主要的学习资源是四个: B站许志钦老师的视频(主要入门理论)https://www.bilibili.com/video/BV15a4y1j7vg?spm_id_from=333.999.0
103
0
0
强化学习入门知识与经典项目分析1.1
摘要:博客园用markdown语法写的第一篇文章,在这里非常感谢 小么VinVin对我的帮助。 我先在这里分享一下写强化学习的原因。大三上学期,学院开设了智能车辆规划与决策课程,由于学时的限制,最后决策部分的内容只讲了有限状态机和马尔可夫决策。我利用寒假这段时间,继续补充了强化学习方面的知识,大三下学期这
250
0
1
点击右上角即可分享
微信分享提示
深色
回顶
收起