2022年1月22日

【人工智能导论:模型与算法】贝尔曼方程 V2.0

摘要: 【人工智能导论:模型与算法】强化学习问题定义 贝尔曼方程 比上一遍好了很多,但还不是很通透,需要看第三遍 ! 阅读全文

posted @ 2022-01-22 15:57 HBU_DAVID 阅读(195) 评论(0) 推荐(0) 编辑

【人工智能导论:模型与算法】马尔科夫决策过程MDP | 强化学习问题定义:策略函数π,状态-价值函数v(s),动作-价值函数q(s,a)- V2.0

摘要: 【人工智能导论:模型与算法】马尔科夫决策过程 【人工智能导论:模型与算法】强化学习问题定义 贝尔曼方程 太晚了,贝尔曼来不及看了。贝尔曼有一定难度,拿出时间单独看也好。 第二遍看MDP,理解又深入了一些。 【2022.1.22更新】 价值函数 更新为:状态价值函数。 更多教材采用 状态价值函数 另一 阅读全文

posted @ 2022-01-22 01:52 HBU_DAVID 阅读(198) 评论(1) 推荐(0) 编辑

导航