强化学习表格型求解方法、表格近似（函数）求解方法、策略梯度方法的区别

近来发现自己概念有些混淆，写一点自己对从Sutton书上看到的这些方法之间联系的理解和想法。
【如有不恰当的地方，欢迎指正！】

前言

强化学习的初始驱动就是通过和环境互动得到的奖励来评估经历过的状态或状态下选择的动作的好坏，从而选择出合适的策略进行控制。

所以最好的办法就是之前DP提到的利用贝尔曼方程迭代求解，收敛之后就找到了最优策略、最优值函数等。

对环境认知不够充分时就使用蒙特卡罗、TD等方法对其进行估计得到较优策略。

表格近似求解

上述这类想法是评估出每个动作的好坏，然后进行选择。

自然在对这些因素进行评估时就需要一个点一个点来更新，动作状态对少的时候还好，时间空间充裕。

如果真的有很多呢？
那就必须要采取一定策略来降低处理难度。分组？划块？更一般地，构造一种函数关系，只要找到合适的参数就能得到对应的动作状态值函数【这就是表格型方法的近似求解】。

策略梯度方法

还有一种途径就是不利用状态动作对的大小进行选择，直接对策略进行拟合（策略说到底就是状态到动作的映射，只要告诉我这个时候该做什么就够了。我可以看看做了哪个动作会更好，这个更好可以是绝对的，自然也可以是相对的）

这就是策略梯度方法了。直接用参数来拟合策略函数进行求解。

至于说梯度，思想和优化问题中的梯度下降很相似（我觉得只要带梯度的方法都很像）。都是在自变量上动手脚，给一个方向和步长出去探索。

这类方法在看的时候需要明确的就是自变量是谁？因变量（即函数）是什么？然后按照常规步骤求梯度就可以了。

不得不说，越学越觉得这种思维很数学也很统计，大道至简，学科之间的道理非常相通哇。
求学之路漫漫，任重道远啊。

posted @ 2022-04-12 21:11 芋圆院长阅读(126) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 离线强化学习 (Offline Reinforcement Learning)

· 强化学习算法中的梯度和更新公式在代码的哪里体现？

· 强化学习小结

· 强化学习Reinforcement Learning An Introduction——by Sutton读书笔记

· 什么是强化学习

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 2025年我用 Compose 写了一个 Todo App
· 张高兴的大模型开发实战：（一）使用 Selenium 进行网页爬虫

公告

昵称：芋圆院长
园龄： 4年3个月
粉丝： 14
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

芋圆院长

强化学习表格型求解方法、表格近似（函数）求解方法、策略梯度方法的区别

前言

表格近似求解

策略梯度方法

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论