2018 年 7月 17 日随笔档案 - AHU-WangXiao

2018年7月17日

Proximal Policy Optimization Algorithm (PPO)

摘要： Proximal Policy Optimization Algorithms Updated on 2019-09-14 16:15:59 Paper: https://arxiv.org/pdf/1707.06347.pdf TensorFlow Code from OpenAI: https: 阅读全文

posted @ 2018-07-17 16:58 AHU-WangXiao 阅读(7493) 评论(0) 推荐(1) 编辑

深度学习课程笔记（十三）深度强化学习 --- 策略梯度方法（Policy Gradient Methods）

摘要：深度学习课程笔记（十三）深度强化学习策略梯度方法（Policy Gradient Methods） 2018-07-17 16:50:12 Reference: https://www.youtube.com/watch?v=z95ZYgPgXOY&t=512s 阅读全文

posted @ 2018-07-17 16:53 AHU-WangXiao 阅读(598) 评论(0) 推荐(0) 编辑

The Blog of Xiao Wang

Associate Professor, School of Computer Science and Technology, Anhui University, Email: xiaowang@ahu.edu.cn

公告