深度强化学习DRL（王树森）笔记

资源

DRL慕课@Bilibili
DRL（初稿）2021
DRL@Github

强化学习术语

策略
动作
策略梯度
策略学习
策略网络
行为策略 (Behavior Policy) P53
目标策略（Target Policy）P53
经验回放（Experience Reply）P53

离散状态离散动作：表格型方法
连续状态离散动作：DQN方法
连续状态连续动作：连续控制

DRL目录

点击查看目录

第一部分 基础知识
1 深度学习基础
2 概率论基础与蒙特卡洛
3 马尔可夫决策过程 (MDP)
第二部分 价值学习
4 DQN 与 Q 学习
5 SARSA 算法
6 价值学习高级技巧
第三部分 策略学习
7 策略梯度方法（REINFORCE/Actor-Critic）
8 带基线的策略梯度方法（REINFORCE with Baseline/A2C）
9 策略学习高级技巧（TRPO）
10 连续控制
11 对状态的不完全观测
12 模仿学习
第四部分 多智能体强化学习
13 并行计算
14 多智能体系统（MAS/MARL）
15 合作关系设定下的多智能体强化学习（MAC-A2C）
16 非合作关系设定下的多智能体强化学习（MAN-A2C/MADDPG）
17 注意力机制与多智能体强化学习
第五部分 应用与展望
18 AlphaGo 与蒙特卡洛树搜索（MCTS）
19 现实世界中的应用