NTU 李宏毅 DRL Q-learning

这节讲Q-learning。

其实就是介绍了一些Critic，也就是value-based方法的基本思想，首先是MC和TD，我懒得再说一遍了。

这张图介绍了一下MC和TD的差别，MC的步子比较大，而TD则相对更稳健。但是TD作出了一些假设，它信任了之前的值函数，在上一次评估的值函数的基础之上调整，这可能会导致评估上的不准确。

另一个问题是MC和TD看待采样的角度不同，他们做出了不同的假设，这些某些情况下会出现不同的结果：

当然当采样次数足够多的时候这些问题就不存在了。

上面的Critic是基于state的，也就是对每一个state进行评价。

还有另一种critic是基于state-action对的，它评价了每一个state-action对。

以上的过程都是策略评估，而我们可以在此之上直接改进策略。

实际上，我们只需要找到策略满足 $\pi^{\prime}(s)=\arg \max _{a} Q^{\pi}(s, a)$ ，就一定可以让策略得到改进。

现在，对于每一个state，有 $V^{\pi^{\prime}}(s) \geq V^{\pi}(s)$ 。

我们用Q函数作为建立偏序关系的桥梁（实际上全概率展开也可以）：

有 $\begin{aligned} V^{\pi}(s)=Q^{\pi}(s, \pi(s)) \leq & \max _{a} Q^{\pi}(s, a)=Q^{\pi}\left(s, \pi^{\prime}(s)\right) \end{aligned}$

那么：

$\begin{array}{l}{V^{\pi}(s) \leq Q^{\pi}\left(s, \pi^{\prime}(s)\right)} \\ {=E\left[r_{t+1}+V^{\pi}\left(s_{t+1}\right) | s_{t}=s, a_{t}=\pi^{\prime}\left(s_{t}\right)\right]} \\ {\leq E\left[r_{t+1}+Q^{\pi}\left(s_{t+1}, \pi^{\prime}\left(s_{t+1}\right)\right) | s_{t}=s, a_{t}=\pi^{\prime}\left(s_{t}\right)\right]} \\ {=E\left[r_{t+1}+r_{t+2}+V^{\pi}\left(s_{t+2}\right) | \ldots\right]} \\ {\leq E\left[r_{t+1}+r_{t+2}+Q^{\pi}\left(s_{t+2}, \pi^{\prime}\left(s_{t+2}\right)\right) | \ldots\right] \ldots \leq V^{\pi^{\prime}}(s)}\end{array}$

这里没有写出折扣，但是也没差啦。

然后是评估中Target Network的概念。

因为我们的目标只是让 $\begin{aligned} \mathrm{Q}^{\pi}\left(s_{t}, a_{t}\right) =r_{t}+\mathrm{Q}^{\pi}\left(s_{t+1}, \pi\left(s_{t+1}\right)\right) \end{aligned}$

理论上左式和右式都是可以调整的（你可以更改 $\left(s_{t}, a_{t}\right)$ 的值函数，也可以更改 $\left(s_{t+1}, \pi\left(s_{t+1}\right)\right)$ 的值函数），但是这样不好操作。

现在我们把 $\mathrm{Q}^{\pi}\left(s_{t+1}, \pi\left(s_{t+1}\right)\right)$ 固定住，也就是用 $\mathrm{Q}^{\pi}\left(s_{t}, a_{t}\right)$ 去回归，回归的目标就是 $r_{t}+\mathrm{Q}^{\pi}\left(s_{t+1}, \pi\left(s_{t+1}\right)\right)$ 。

因此我们也把后面的这个网络称为Target Network。

然后是探索，常用的方法就是Epsilon Greedy和Boltzmann Exploration。

Epsilon Greedy是：

$a=\left\{\begin{array}{cc}{\arg \max _{a} Q(s, a),} & {\text { with probability } 1-\varepsilon} \\ {\text { random, }} & {\text { otherwise }}\end{array}\right.$