强化学习之基于函数逼近的同轨策略预测(三)-- 线性方法及其特征构造

注:本节内容是对Sutton的《Reinforcement Learning: An introduction》第九章的理解整理~ 这里是第四、五节

上节讲到使用函数逼近状态值时使用的优化方法,随机梯度法可以用来求解各种函数最值。最简单的莫过于线性关系!近似函数是权值向量\(w\)的线性函数。

线性方法

在线性情况下可以对优化过程做如下简化:

所以有如下更新公式:

在线性情况下函数只存在一个最优解,因此局部收敛等同于全局收敛。需要注意的是梯度蒙特卡罗算法在线性函数逼近下收敛到VE_bar的全局最优值,半梯度TD(0)算法也在线性函数逼近下收敛,但并不遵从SGD的一般通用结果。对TD不动点有以下证明:

有了1步TD,自然有n步TD,类推即可。这里蒙特卡罗、TD梯度方法的优缺点与无梯度优缺点类似,就不再赘述了。

特征构造

选择适合于任务的特征是将先验知识加入强化学习系统的重要方式,一般来说这些特征应该提取状态空间中最通用的信息。
线性特征的不足在于没有考虑特征之间的相关关系,例如在杆问题中角度和角速度分别作为状态的两个维度,没有办法体现它们俩的相关关系。

多项式基

傅里叶基

粗编码

瓦片编码

径向基

总结

特征构造就是将现有的特征进行重组来构造出新的特征 期望可以得到更好的函数关系。
可以理解为 低维变低维 或 低维升高维,只是一种变换。
这两节研究的是在简单的线性情况下如何选择合适的特征或目前可以选择哪些特征。

posted @ 2021-11-15 15:32  芋圆院长  阅读(178)  评论(0编辑  收藏  举报