摘要:
1. 背景GAN在之前发的文章里已经说过了,虽然现在GAN的变种越来越多,用途广泛,但是它们的对抗思想都是没有变化的。简单来说,就是在生成的过程中加入一个可以鉴别真实数据和生成数据的鉴别器,使生成器G和鉴别器D相互对抗,D的作用是努力地分辨真实数据和生成数据,G的作用是努力改进自己从而生成可以迷惑D 阅读全文
摘要:
策略梯度(Policy gradient)是所有基于策略搜索的强化学习算法的基础,就像MDP是所有强化学习问题的基础一样。 后续提出的算法(如Actor-Critic、TRPO、PPO、DPG)都是针对策略梯度算法的缺陷提出改进,所以理解策略梯度的各种细节十分必要。 为什么要用基于策略的学习? 1) 阅读全文