代码改变世界

李宏毅深度强化学习(国语)课程(2018) 简易记录

2018-08-09 14:41  Time皇族  阅读(1108)  评论(0编辑  收藏  举报

1 Policy Gradient

Policy Gradient 算法的简要概括:

Implementation: 

 2 Typical Q-Learning Algorithm

经典的Q-Learning算法概括: