强化学习(人工智能) —— DDPG、TD3、SAC、SQL算法是不是Actor-Critic算法?

强化学习算法是人工智能领域发展最为强劲的一个分支,但是很多人都将注意力放在了算法模型的发展上而忽略了其基本理论上的一些概念,本文就讨论一下强化学习算法的一些基本概念的界定上。





来源:

https://ai.stackexchange.com/questions/39545/why-is-soft-q-learning-not-an-actor-critic-method


Although the soft Q-learning algorithm proposed by Haarnoja et al. (2017) has a value function and actor network, it is not a true actor-critic algorithm: the Q-function is estimating the optimal Q-function, and the actor does not directly affect the Q-function except through the data distribution. Hence, Haarnoja et al. (2017) motivates the actor network as an approximate sampler, rather than the actor in an actor-critic algorithm. Crucially, the convergence of this method hinges on how well this sampler approximates the true posterior.



本文是 人工智能(强化学习)—— Why is Soft Q Learning not an Actor Critic method? —— SQL算法为什么不是Actor-Critic算法 的一个补充。



DDPG、TD3、SAC、SQL算法,我个人认为均不属于actor-critic算法,虽然现在的算法类别分类中常用的方法是将这几个算法归为actor-critic算法,我认为这种归类算法只是简单的根据算法结构中是否才有actor和critic网络为判断的,而我认为这种判断太过于简单,是不准确的,我认为应该按照是否使用policy gradient理论来作为判定标准。

按照是否使用policy gradient理论来作为判定标准,那么DDPG、TD3、SAC、SQL算法均不属于actor-critic算法。


因为原始的actor-critic算法之所以被称为actor-critic算法就是因为其主要的核心是policy gradient和value estimation的组合,那么必然是要将是否含有policy gradient作为首要判定标准的,而且从算法的计算流程、算法理论和计算方法上来看,DDPG、TD3、SAC、SQL算法和标准的actor-critic算法都有着明显差距,可以说这几种算法的核心思想是更贴近q-learning算法的,而actor-critic算法的核心应该是policy gradient而不是Q-learning。



posted on 2024-12-11 12:00  Angry_Panda  阅读(25)  评论(0编辑  收藏  举报

导航