【人工智能导论:模型与算法】马尔科夫决策过程MDP | 强化学习问题定义:策略函数π,状态-价值函数v(s),动作-价值函数q(s,a)- V2.0

【人工智能导论:模型与算法】马尔科夫决策过程

【人工智能导论:模型与算法】强化学习问题定义 贝尔曼方程

太晚了,贝尔曼来不及看了。贝尔曼有一定难度,拿出时间单独看也好。

第二遍看MDP,理解又深入了一些。

【2022.1.22更新】

价值函数  更新为:状态价值函数。

  • 更多教材采用 状态价值函数
  • 另一个叫 动作价值函数,感觉也比较对称。

 

 

posted on 2022-01-22 01:52  HBU_DAVID  阅读(170)  评论(1编辑  收藏  举报

导航