Q \pi (\lambda)
Q(λ) with Off-Policy Corrections
摘要
我们提出并分析了一种off-policy的多步骤时间TD学习的替代方法,其中off-policy的回报是根据当前的Q函数在奖励方面进行校正,而不是根据目标策略在转移概率方面进行校正。我们证明,只要有一定条件,这种近似修正就足以在政策评估和控制方面实现政策外趋同。这些条件将目标和行为政策之间的距离,资格跟踪参数和折扣因子联系起来,并正式确定了非政策性TD(λ)中的潜在权衡。我们在连续状态控制任务上以经验方式说明了这种理论关系。
1 介绍
在强化学习(RL)中,当使用行为策略 生成的样本来学习目标策略 时,学习是off-policy的。off-policy学习的通常方法是忽略或完全放弃目标策略概率较低的过渡。例如,Watkins 的Q(λ)[21]会在遇到非贪婪行为时立即削减轨迹备份。同样,在政策评估中,重要性抽样方法[8]根据目标的不匹配和相应行动的行为概率对收益进行加权。这种方法保守地对待过渡,因此可能会不必要地终止备份或引入大量差异。
许多off-policy方法,尤其是蒙特卡洛方法,除了从概率意义上判断off-policy行动外别无选择。但是,RL中的时差方法[14]沿该方向保持了值函数的近似值,而资格迹[22]提供了单步方法和蒙特卡洛方法之间的连续链接。价值功能根据以下预期的累积奖励评估行动,从而提供一种直接纠正即时奖励而不是过渡的方法。我们在本文中表明,这种近似校正可能足以满足偏离政策的要求,但要遵循资格跟踪参数与目标与行为政策之间的距离之间的权衡条件。这种权衡的两个极端是一步式Q学习和按策略学习。形式化权衡的连续性是本文的主要见解之一。
特别是,我们提出了一种off-policy的收益算子,它基于Q函数的当前近似值,用修正项来增加收益。然后,我们根据该运算符对三种算法进行形式化:
(1)off-policy Qπ(λ)及其特殊情况
(2)on-policy的Qπ(λ)用于策略评估,以及
(3)Q ∗(λ)用于off-policy 策略评估
在策略评估中,on-policy和off-policy 的Qπ(λ)都是新颖的,但与TD(λ)系列的几种现有算法密切相关。第7节对此进行了详细讨论。我们证明了Qπ(λ)的收敛性,这取决于λ-ε的权衡,其中$$
\varepsilon \stackrel{\text { ase }}{=} \max {x}|\pi(\cdot | x)-\mu(\cdot | x)|
\left(P^{\pi} Q\right)(x, a) \stackrel{\text { def }}{=} \sum_{x^{\prime} \in \mathcal{X}} \sum_{a^{\prime} \in \mathcal{A}} P\left(x^{\prime} | x, a\right) \pi\left(a^{\prime} | x^{\prime}\right) Q\left(x^{\prime}, a^{\prime}\right)
Q^{\pi} \stackrel{\text { def }}{=} \sum_{t \geq 0} \gamma{t}\left(P\right)^{t} r
\begin{aligned}\mathcal{T}^{\pi} Q & \stackrel{\text { def }}{=} r+\gamma P^{\pi} Q \\mathcal{T}^{\pi} Q^{\pi} &=Q^{\pi}=\left(I-\gamma P{\pi}\right) r\end{aligned}
\mathcal{T} Q=Q
\begin{aligned}Q_{k+1}(x, a) & \leftarrow Q_{k}(x, a)+\alpha_{k} \delta \\delta &=r+\gamma Q_{k}\left(x^{\prime}, a^{\prime}\right)-Q_{k}(x, a)\end{aligned}
\begin{aligned}\mathcal{T}{\lambda}^{\pi} Q \stackrel{\text { def }}{=} & A{\lambda}\left[\left(\mathcal{T}\right)^{n+1} Q\right] \&=Q+\left(I-\lambda \gamma P{\pi}\right)\left(\mathcal{T}^{\pi} Q-Q\right) \A^{\lambda}[f(n)] & \stackrel{\text { def }}{=}(1-\lambda) \sum \lambda^{n} f(n)\end{aligned}
x_{0}, a_{0}, r_{0}, x_{1}, a_{1}, r_{1}, \dots
a_{i} \sim \mu\left(\cdot | x_{i}\right), x_{i+1} \sim P\left(\cdot | x_{i}, a_{i}\right)
\left(\mathcal{R}^{\pi, \mu} Q\right)(x, a) \stackrel{\text { def }}{=} r(x, a)+\mathbb{E}{\mu}\left[\sum \gamma^{t}\left(r_{t}+\underbrace{\mathbb{E}{\pi} Q\left(x, \cdot\right)-Q\left(x_{t}, a_{t}\right)}_{\text {off-policy correction }}\right)\right]