强化学习Chapter3——贝尔曼方程

上一节介绍了衡量回报 \(R\) 的相关函数，包括状态价值函数与动作价值函数，并且介绍了二者之间的等式关系

\[V^\pi(s)=E_{a\sim\pi}[Q^\pi(s,a)]=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ Q^\pi(s,a)=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s') \]

本节将通过这两个式子，导出贝尔曼方程

一、贝尔曼方程（Bellman equation）

根据 V 和 Q 的相互表示关系，可以预想到的是，从这两个式子可以导出类似动态规划的递归方程。下面将展示这个过程。

1、状态价值函数的贝尔曼方程

\[\begin{aligned} V^\pi(s)&=\sum_{a}\pi(a|s)Q^\pi(s,a)\\ &=\sum_{a}\pi(a|s)[r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')]\\ &=\sum_{a}\pi(a|s)r(s,a)+\gamma\sum_{a}\pi(a|s)\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=E_{a\sim \pi}[r(s,a)]+\gamma E_{a\sim\pi}[E_{s'\sim P}[V^\pi(s')]]\\ &=E_{a\sim\pi,s'\sim P}[r(s,a)+\gamma V^\pi(s')] \end{aligned} \]

为了突出时间线的递推性，也可以写成：

\[V^\pi(s_t)=E_{a\sim\pi,s_{t+1}\sim P}[r(s_t,a)+\gamma V^\pi(s_{t+1})] \]

其中 \(P\) 给定 \(s_t\) 和 \(a\) 的条件下，\(s_{t+1}\) 的分布。策略分布 \(\pi\) 与并不显式与 \(t\) 有关，毕竟大伙都只有一个脑子。

2、动作价值函数的贝尔曼方程

\[\begin{aligned} Q^\pi(s,a)&=r(s,a)+\gamma\sum_{s'}P(s'|s,a)V^\pi(s')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)\sum_{a}\pi(a'|s)Q^\pi(s,a')\\ &=r(s,a)+\gamma\sum_{s'}P(s'|s,a)E_{a'\sim\pi}[Q(s,a')]\\ &=r(s,a)+\gamma E_{s'\sim P,a'\sim\pi}E[Q(s',a')]\\ &=E_{a'\sim \pi, s'\sim P}[r(s,a)+\gamma Q(s',a')] \end{aligned} \]

同理，也可以写成时间线的递推形式，此处不再赘述。可见，二者的形式其实十分相近。

二、贝尔曼最优方程（Bellman optimal equation）

即采用最优策略得到的 \(V\) 和 \(Q\) 的最值 \(V^*\) 和 \(Q^*\)，下面直接写出

\[V^*(s)=\max_a E_{s'\sim P}[r(s,a)+\gamma V^*(s')]\\ Q^*(s,a)=E_{s'\sim P}[r(s,a)+\gamma \max_{a'}Q^*(s',a')] \]

可以看到的是，这里“最优”的约束全在动作上，而动作是由策略决定，因此贝尔曼最优方程，其实是最优策略对应的贝尔曼方程。

三、向量形式

为了导出贝尔曼方程（BE）与贝尔曼最优方程（BOE），首先对 BE 公式进行重写：

\[V_\pi(s)=r_\pi(s)+\gamma\sum_{s'}P_\pi(s'|s)V_\pi(s')\\ \]

这里将策略 \(\pi\) 作为参数，简化贝尔曼方程。若将各值写成向量形式：

\[\begin{aligned} &V_\pi = [V_\pi(s_1),...,V_\pi(s_n)]^T\in \R^n\\ &r_\pi = [r_\pi(s_1),...,r_\pi(s_n)]^T\in \R^n\\ \\ &P_\pi\in R^{n\times n}\ \ where\ [P_\pi]_{ij}=p_\pi(s_j|s_i) \end{aligned} \]

就能得出向量形式的贝尔曼方程：

\[V_\pi=r_\pi+\gamma P_\pi V_\pi \]

向量形式极大简化了贝尔曼公式，如此简洁精炼，大大简化了相关公式的证明。同时这也给解贝尔曼方程提供了思路。

\[V_\pi=(I-\gamma P_\pi)^{-1}r_\pi \]

通过矩阵运算，能够在给定 \(P_\pi,r_\pi\) 的条件下（所有状态切换信息透明），求出给定策略的状态价值函数 \(V_\pi\). 上式可直接导出下面的几个性质：

由于 \(P_\pi\) 半正定，有 \((I-\gamma P_\pi)^{-1}=I+\gamma P_\pi+\gamma^2 P_\pi^2+...\ge I\ge 0\)，所以 \(if\ r\ge 0, then\ (I-\gamma P_\pi)^{-1}r\ge r\ge 0\).
\(if\ r_1\ge r_2,then\ (I-\gamma P_\pi)^{-1}r_1\ge (I-\gamma P_\pi)^{-1}r_2\)，即 \(v_1\ge v_2\).

由于基于矩阵求逆的算法求解贝尔曼方程，对信息需求苛刻，在某些复杂情况下可用性十分有限，因此更多寻找最优策略的算法被逐渐提出。

Reference：

Mathematical Foundations of Reinforcement Learning. https://github.com/MathFoundationRL

posted @ 2023-07-13 16:57 tsyhahaha 阅读(1770) 评论(0) 收藏举报

刷新页面返回顶部

tsyhahaha

强化学习Chapter3——贝尔曼方程

强化学习Chapter3——贝尔曼方程

一、贝尔曼方程（Bellman equation）

1、状态价值函数的贝尔曼方程

2、动作价值函数的贝尔曼方程

二、贝尔曼最优方程（Bellman optimal equation）

三、向量形式

公告