强化学习算法中基于值的和基于策略梯度的两类算法到底哪个速度更快

有人说基于值的RL算法收敛速度快,有人说基于策略梯度的RL算法收敛快,而且不仅是researcher各所各的,甚至教材里面也是各说各的,这个问题导致很多RL的初学者陷入到该问题中无解,这里给出自己的一些理解。


在线性表来表示状态的RL问题背景下(20多年前),那个时候的问题规模较小,难度较小,因此基于值的RL算法收敛更快,而由于基于策略的RL算法需要收集大量数据,因此那个时候的RL算法中基于值的收敛速度往往要快于基于策略的;但是,在函数表示的问题中,尤其随着问题难度增大,甚至到了神经网络表示时代,尤其是现在的deep learning的时代,由于问题难度大,状态空间极大,这时候基于值的RL算法往往收敛速度不如基于策略的,这也是为什么现在很多强化学习问题都是使用PPO而不是使用DQN算法,因为这种情况下基于策略的RL算法收敛更快。


要知道,“强化学习算法中基于值的和基于策略梯度的两类算法到底哪个速度更快”,这个问题是没有准确的唯一答案的,要知道这个问题的答案要看具体的问题的,即使刚刚上面的回答所的也是一个比例的问题,就是在某种某类问题中某类算法的收敛可能更大概率的要快,而这也只是一个大概率的问题,因此,该问题需要具体问题具体分析,简单的答案肯定是无法回答该问题的。



强化学习算法library库:(集成库)

https://github.com/Denys88/rl_games

https://github.com/Domattee/gymTouch

个人github博客地址:
https://devilmaycry812839668.github.io/

posted on 2024-11-05 14:21  Angry_Panda  阅读(0)  评论(0编辑  收藏  举报

导航