强化学习理论-第3课-贝尔曼最优公式

1. 贝尔曼最优公式：

1.1 定义：

第2课介绍了贝尔曼公式，里面的\(\pi (a|s)\)策略是固定的，这里我们想求得一个最优的策略，使得state value最好

1.2 matrix-vector form：

2. 求解贝尔曼公式：

公式中，v是一个未知量，\(\pi\)也是要求解的最优策略。

假设a有5个action，

2.1 Contraction mapping theorem:

example:

theorem:

2.2 应用这个定理求解：

运用定理知道，一定存在一个解，并且这个解是唯一的，而且这个解可以通过迭代的方式进行。

posted @ 2024-11-12 15:36 penuel 阅读(250) 评论(0) 收藏举报

刷新页面返回顶部