强化学习(人工智能) —— DDPG、TD3、SAC、SQL算法是不是Actor-Critic算法?
Although the soft Q-learning algorithm proposed by Haarnoja et al. (2017) has a value function and actor network, it is not a true actor-critic algorithm: the Q-function is estimating the optimal Q-function, and the actor does not directly affect the Q-function except through the data distribution. Hence, Haarnoja et al. (2017) motivates the actor network as an approximate sampler, rather than the actor in an actor-critic algorithm. Crucially, the convergence of this method hinges on how well this sampler approximates the true posterior.
本文是 人工智能(强化学习)—— Why is Soft Q Learning not an Actor Critic method? —— SQL算法为什么不是Actor-Critic算法 的一个补充。
DDPG、TD3、SAC、SQL算法,我个人认为均不属于actor-critic算法,虽然现在的算法类别分类中常用的方法是将这几个算法归为actor-critic算法,我认为这种归类算法只是简单的根据算法结构中是否才有actor和critic网络为判断的,而我认为这种判断太过于简单,是不准确的,我认为应该按照是否使用policy gradient理论来作为判定标准。
按照是否使用policy gradient理论来作为判定标准,那么DDPG、TD3、SAC、SQL算法均不属于actor-critic算法。
因为原始的actor-critic算法之所以被称为actor-critic算法就是因为其主要的核心是policy gradient和value estimation的组合,那么必然是要将是否含有policy gradient作为首要判定标准的,而且从算法的计算流程、算法理论和计算方法上来看,DDPG、TD3、SAC、SQL算法和标准的actor-critic算法都有着明显差距,可以说这几种算法的核心思想是更贴近q-learning算法的,而actor-critic算法的核心应该是policy gradient而不是Q-learning。
posted on 2024-12-11 12:00 Angry_Panda 阅读(25) 评论(0) 编辑 收藏 举报