2019年3月11日

8. Actor-Critic、DDPG、A3C

摘要: 我们知道,学术中很多时候一般是先有了牛逼算法A,再有了牛逼算法B。但A,B算法一般都有缺点,于是有一天有人将两者整合,结合了两者优点,避免了两者缺点,皆大欢喜,喜大普奔。但对于AC算法来说其架构可以追溯到三、四十年前。 最早由Witten在1977年提出了类似AC算法的方法,然后Barto, Sut 阅读全文

posted @ 2019-03-11 20:13 yijun0730 阅读(2247) 评论(0) 推荐(0) 编辑

7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

摘要: 前6篇我们都是估计动作值函数Q,从而可以根据估计的Q值选择相应的动作。但是这样的值函数(Value Based)估计方法有着一定的限制。第一,值函数估计方法最后得到的策略是固定策略,不能应对最优策略是随机策略的情况,随机策略指的是以一定的概率选择不同的动作,而不是只可能有一个最优动作。第二,值函数估 阅读全文

posted @ 2019-03-11 09:44 yijun0730 阅读(1945) 评论(0) 推荐(0) 编辑

导航