强化学习理论-第3课-贝尔曼最优公式

1. 贝尔曼最优公式:

1.1 定义:

第2课介绍了贝尔曼公式,里面的\(\pi (a|s)\)策略是固定的,这里我们想求得一个最优的策略,使得state value最好

1.2 matrix-vector form:

2. 求解贝尔曼公式:


公式中,v是一个未知量,\(\pi\)也是要求解的最优策略。

假设a有5个action,

2.1 Contraction mapping theorem:


example:

theorem:

2.2 应用这个定理求解:



运用定理知道,一定存在一个解,并且这个解是唯一的,而且这个解可以通过迭代的方式进行。

posted @ 2024-11-12 15:36  penuel  阅读(26)  评论(0编辑  收藏  举报