基于动态规划的强化学习算法

合集 - 常规人工智能相关(9)

1.《人工智能：一种现代的方法（第3版）》阅读——第一章：绪论2023-10-30 2.《人工智能：一种现代的方法（第3版）》阅读——第二章：智能Agent2023-10-30 3.《人工智能：一种现代的方法（第3版）》阅读——第三章：通过搜索进行问题求解2023-10-31 4.《人工智能：一种现代的方法（第3版）》阅读——第四章：超越经典搜索2023-11-03 5.《人工智能：一种现代的方法（第3版）》阅读——第五章：对抗搜索2023-11-06 6.神经网络训练中的欠拟合、过拟合问题2024-01-14 7.马尔可夫决策过程2024-03-04

8.基于动态规划的强化学习算法2024-03-08

9.无模型的强化学习方法2024-03-09

基于动态规划的强化学习算法

学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。

在马尔可夫决策过程 环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，我们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 $π^{*}$ 。

1. 动态规划

对于做过算法题目的同学而言，这个词应该并不陌生，比较经典的「背包问题」就是需要利用「动态规划」。动态规划的思想是：将当前问题分解为子问题，求解并记录子问题的答案，最后从中获得目标解。它通常用于求解「最优」性质的问题。

而求解马尔可夫决策过程最优策略的动态规划算法主要有两种：

策略迭代
价值迭代

2. 策略迭代

「策略迭代」 分为「策略评估」和「策略提升」两部分。

策略评估

策略评估会先设定一个初始状态价值函数 $V^{0}$ ，再通过「动态规划」不断更新策略的状态价值函数 $V^{k + 1} \leftarrow V^{k}$ ，当最大的「 $V^{k + 1} (s)$ 与上次的 $V^{k} (s)$ 的差距」非常小（ $< θ$ ）时，就结束迭代。

策略评估的迭代公式可以看作是「贝尔曼期望方程」+「动态规划」。我们可以看看两者的不同：

光说这些还是不容易理解的，我们用实例演示一遍吧。同样以教材中的「悬崖环境」为例：

假设现在有这么一个 $5 \times 4$ 区域的悬崖，我们的目标是要找出从起点到终点的最优策略。我们把每个格子都当成一个状态，也就是说，只要智能体移动了一个格子，就转换了一次状态；并且智能体只能「上下左右」地走（如果将走出范围，就当作原地踏步，即「走到自身格子」），每走一步都是一个动作且往不同方向走的概率是相同的。走到悬崖的奖励我们设为-100，走到正常位置的奖励设为-1，走到终点就直接结束（相当于奖励是0），那么我们可以整理出奖励函数 $r (s, a)$ ：

可能会有的疑惑： $r (s, a)$ 不是 由状态与动作一起决定 的吗，这里怎么把 $r (s, a)$ 直接放在状态上了？
答：这其实是种简化的表达方式，我们应该这么看：这里的 $r (s, a)$ 指从其它状态（格子）以任意方向走到当前状态（格子）的 $r (s, a)$ ，只不过因为它们都相同（因为设置的这个环境比较特殊），所以写在了一起。比如下面这个红色小旗所在格子位置上的 $r (s, a)$ 其实是它周围格子走到该格子的 $r (s, a)$ ：

我们先让初始 $V^{0}$ 全为0，判定迭代结束的小阈值 $θ = 0.01$ ，为了方便，让折扣因子 $γ = 1$ ，而且由于走一步仅能到达一个状态，所以让所有的状态转移概率都为1 ：

根据迭代公式，开始迭代 $V^{1}$ ，先以起点的 $V$ 开始：

$\begin{aligned} V^{1} (起) & = \frac{1}{4} \times ((- 1) + 1 \times 1 \times (V^{0} (起上))) + \frac{1}{4} \times ((- 1) + 1 \times 1 \times (V^{0} (起下))) \\ + \frac{1}{4} \times ((- 1) + 1 \times 1 \times (V^{0} (起左))) + \frac{1}{4} \times ((- 100) + 1 \times 1 \times (V^{0} (起右))) \\ = \frac{1}{4} \times ((- 1) + 1 \times 1 \times (0)) + \frac{1}{4} \times ((- 1) + 1 \times 1 \times (0)) \\ + \frac{1}{4} \times ((- 1) + 1 \times 1 \times (0)) + \frac{1}{4} \times ((- 100) + 1 \times 1 \times (0)) \\ = - 25.75 \end{aligned}$
每个状态（格子）都计算完后，就得到了完整的新的 $V^{1}$ :
然后进行评估，发现 $m a x {| V^{1} (s) - V^{0} (s) |} = 25.75 > θ$ ，还得继续迭代
重复与2相同的步骤，根据 $V^{1}$ 求出 $V^{2}$ ，又可以得到：
……

总之，在经过多轮的重复迭代后，我们取得了收敛的 $V$ ，这时就进入到了 「策略提升」 环节。

策略提升

接下来就是调整策略 $π$ 了，我们可以直接贪心地在每一个状态选择动作价值最大的动作，也就是：

根据这个调整方式，来看看最终策略提升得到的新的 $π^{1}$ :

然而，这还没有结束，如果不满足 $π^{k - 1} = π^{k}$ ，那么还需要继续进行策略迭代。如果满足了，那么此时的 $π^{k}$ 就是最优策略、 $V^{k}$ 就是最优价值。在这里显然 $π^{0} \neq π^{1}$ ，所以要继续。

总结

最后，综合「策略评估」和「策略提升」，得到策略迭代算法（教材中的）：

3. 价值迭代

「策略迭代算法」似乎计算量大了些，既要进行不断迭代 $V$ ，还要迭代 $π$ ，有计算量比较小的算法吗？ 「价值迭代算法」 可能可以满足你的需求，它虽说也要进行 $V$ 迭代，但却只用一轮，而后就直接「盖棺定论」将更改后得到的 $π$ 作为「最优策略」了。

它可以看作是：「贝尔曼最优方程」+ 「动态规划」。

可以直接来对比下「策略迭代」与「价值迭代」：

红色框表示的是「 $V$ 迭代」，在这部分不同的是，「价值迭代」直接选取最大状态价值而不是「策略迭代」的期望状态价值；蓝色框表示的是「 $π$ 迭代」，「价值迭代」没有对「策略」进一步进行迭代 ~~（所以才叫「价值迭代」嘛~~

虽然很简单，但同样我们也来实操一遍「价值迭代」，同样用到刚刚的「悬崖」环境：

初始化就不提了，直接根据迭代公式，开始迭代 $V^{1}$ ，先以起点的 $V$ 开始：

$\begin{aligned} V^{1} (起) & = m a x {((- 1) + 1 \times 1 \times (V^{0} (起上))) ， ((- 1) + 1 \times 1 \times (V^{0} (起下))) ， \\ ((- 1) + 1 \times 1 \times (V^{0} (起左))) ， ((- 100) + 1 \times 1 \times (V^{0} (起右)))} \\ = m a x {((- 1) + 1 \times 1 \times (0)) ， ((- 1) + 1 \times 1 \times (0)) ， \\ ((- 1) + 1 \times 1 \times (0)) ， ((- 100) + 1 \times 1 \times (0))} \\ = m a x {- 1, - 1, - 1, - 100} \\ = - 1 \end{aligned}$
每个状态（格子）都计算完后，就得到了完整的新的 $V^{1}$ :
同样评估一下是否 $m a x {| V^{1} (s) - V^{0} (s) |} > θ$ ，如有则继续迭代。这里经过7次迭代就达到判定阈值了：
最后同样选取最大动作价值，来更新策略即可。如果动作中有多个「最大动作价值」的动作，则给予等概率。