强化学习备忘录

几个基础问题:

1、RL中,哪些方法是Model-Based的,哪些方法是Model-Free的?

2、DRL中,哪些方法可以用在连续策略空间和有限(离散)动作空间上(DQN, DDQN, A3C等)?

      哪些方法可以用在连续策略空间和连续动作空间上(DDPG(Google), TRPO(OpenAI), PPO(OpenAI), DPPO(DeepMind))?

3、值函数近似方法中,是对状态值近似? 还是Q值近似? 

3、UCB系列方法总结

4、DRL如何分类?

根据 Berkeley 的深度强化学习课程我们可以分为
近似动态规划方法(Approximate Dynamic Programming Methods)
策略梯度方法(Policy Gradient Methods)
搜索+监督学习(Search + Supervised Learning)三类