【人工智能导论：模型与算法】马尔科夫决策过程MDP | 强化学习问题定义：策略函数π，状态-价值函数v(s)，动作-价值函数q(s,a)- V2.0

【人工智能导论：模型与算法】马尔科夫决策过程

【人工智能导论：模型与算法】强化学习问题定义贝尔曼方程

太晚了，贝尔曼来不及看了。贝尔曼有一定难度，拿出时间单独看也好。

第二遍看MDP，理解又深入了一些。

【2022.1.22更新】

价值函数 更新为：状态价值函数。

更多教材采用状态价值函数
另一个叫动作价值函数，感觉也比较对称。

posted on 2022-01-22 01:52 HBU_DAVID 阅读(278) 评论(1) 收藏举报

刷新页面返回顶部

导航