2019 年 3月 11 日随笔档案 - yijun0730

2019年3月11日

8. Actor-Critic、DDPG、A3C

摘要：我们知道，学术中很多时候一般是先有了牛逼算法A，再有了牛逼算法B。但A，B算法一般都有缺点，于是有一天有人将两者整合，结合了两者优点，避免了两者缺点，皆大欢喜，喜大普奔。但对于AC算法来说其架构可以追溯到三、四十年前。最早由Witten在1977年提出了类似AC算法的方法，然后Barto, Sut 阅读全文

posted @ 2019-03-11 20:13 yijun0730 阅读(2247) 评论(0) 推荐(0) 编辑

7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

摘要：前6篇我们都是估计动作值函数Q，从而可以根据估计的Q值选择相应的动作。但是这样的值函数（Value Based）估计方法有着一定的限制。第一，值函数估计方法最后得到的策略是固定策略，不能应对最优策略是随机策略的情况，随机策略指的是以一定的概率选择不同的动作，而不是只可能有一个最优动作。第二，值函数估阅读全文

posted @ 2019-03-11 09:44 yijun0730 阅读(1945) 评论(0) 推荐(0) 编辑

yijun0730

8. Actor-Critic、DDPG、A3C

7. 基于策略的强化学习——蒙特卡洛策略梯度REINFORCE算法

导航