强化学习表格型求解方法、表格近似(函数)求解方法、策略梯度方法的区别

近来发现自己概念有些混淆,写一点自己对从Sutton书上看到的这些方法之间联系的理解和想法。
【如有不恰当的地方,欢迎指正!】

前言

强化学习的初始驱动就是通过和环境互动得到的奖励来评估经历过的状态或状态下选择的动作的好坏,从而选择出合适的策略进行控制。

所以最好的办法就是之前DP提到的利用贝尔曼方程迭代求解,收敛之后就找到了最优策略、最优值函数等。

对环境认知不够充分时就使用蒙特卡罗、TD等方法对其进行估计得到较优策略。

表格近似求解

上述这类想法是评估出每个动作的好坏,然后进行选择。

自然在对这些因素进行评估时就需要一个点一个点来更新,动作状态对少的时候还好,时间空间充裕。

如果真的有很多呢?
那就必须要采取一定策略来降低处理难度。分组?划块?更一般地,构造一种函数关系,只要找到合适的参数就能得到对应的动作状态值函数【这就是表格型方法的近似求解】。

策略梯度方法

还有一种途径就是不利用状态动作对的大小进行选择,直接对策略进行拟合(策略说到底就是状态到动作的映射,只要告诉我这个时候该做什么就够了。我可以看看做了哪个动作会更好,这个更好可以是绝对的,自然也可以是相对的)

这就是策略梯度方法了。直接用参数来拟合策略函数进行求解。

至于说梯度,思想和优化问题中的梯度下降很相似(我觉得只要带梯度的方法都很像)。都是在自变量上动手脚,给一个方向和步长出去探索。

这类方法在看的时候需要明确的就是自变量是谁?因变量(即函数)是什么?然后按照常规步骤求梯度就可以了。

不得不说,越学越觉得这种思维很数学也很统计,大道至简,学科之间的道理非常相通哇。
求学之路漫漫,任重道远啊。

posted @ 2022-04-12 21:11  芋圆院长  阅读(102)  评论(0编辑  收藏  举报