深度强化学习DRL(王树森)笔记

资源

DRL慕课@Bilibili
DRL(初稿)2021
DRL@Github

强化学习术语

策略
动作
策略梯度
策略学习
策略网络
行为策略 (Behavior Policy) P53
目标策略(Target Policy)P53
经验回放(Experience Reply)P53

离散状态离散动作:表格型方法
连续状态离散动作:DQN方法
连续状态连续动作:连续控制

DRL目录

点击查看目录
第一部分 基础知识
1 深度学习基础
2 概率论基础与蒙特卡洛
3 马尔可夫决策过程 (MDP)
第二部分 价值学习
4 DQN 与 Q 学习
5 SARSA 算法
6 价值学习高级技巧
第三部分 策略学习
7 策略梯度方法(REINFORCE/Actor-Critic)
8 带基线的策略梯度方法(REINFORCE with Baseline/A2C)
9 策略学习高级技巧(TRPO)
10 连续控制
11 对状态的不完全观测
12 模仿学习
第四部分 多智能体强化学习
13 并行计算
14 多智能体系统(MAS/MARL)
15 合作关系设定下的多智能体强化学习(MAC-A2C)
16 非合作关系设定下的多智能体强化学习(MAN-A2C/MADDPG)
17 注意力机制与多智能体强化学习
第五部分 应用与展望
18 AlphaGo 与蒙特卡洛树搜索(MCTS)
19 现实世界中的应用

慕课笔记

深度强化学习基础

1.基本概念

image

2.价值学习(Value-Based Reinforcement Learning)

image

image

3.策略学习(Policy-Based Reinforcement Learning)

image

image

4.Actor-Critic方法

image

image

image

附录 贝尔曼方程

image
image
image
image

todo

posted @ 2022-08-06 20:54  萧驭  阅读(486)  评论(0编辑  收藏  举报