随笔分类 -  机器学习

摘要:参考资料:维基的哈密顿-雅克比-贝尔曼方程条目。有条件的同学可以自行查看,效果比本文要好一些。文末也会给出相关更深入的资料供大家学习。 作为强化学习的一个基础思想,HJB方程从大框架概述了控制优化的方向。这里对其推导与应用进行简述。 定义如下变量:为过程价值函数,其中S(t)为在t时刻的状态函数,A 阅读全文
posted @ 2022-12-18 22:14 Johnson-Hugo 阅读(1707) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示