2019 年 1月 10 日随笔档案 - 阿夏z

2019年1月10日

摘要： PPO DPPO介绍 PPO实现代码DPPO 阅读全文

posted @ 2019-01-10 19:37 阿夏z 阅读(1410) 评论(0) 推荐(0) 编辑

摘要： DDPG　DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测公式推导　推导代码实现的gym的pendulum游戏，这个游戏是连续动作的 pendulum环境介绍代码实践阅读全文

posted @ 2019-01-10 19:36 阿夏z 阅读(2441) 评论(0) 推荐(0) 编辑

深度增强学习--A3C

摘要： A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高代码实践阅读全文

posted @ 2019-01-10 19:35 阿夏z 阅读(724) 评论(0) 推荐(0) 编辑

深度增强学习--DQN的变形

摘要： DQN的变形 double DQN prioritised replay dueling DQN 阅读全文

posted @ 2019-01-10 19:34 阿夏z 阅读(221) 评论(0) 推荐(0) 编辑

深度增强学习--Actor Critic

摘要： Actor Critic　value-based和policy-based的结合实例代码阅读全文

posted @ 2019-01-10 15:16 阿夏z 阅读(1061) 评论(0) 推荐(0) 编辑

深度增强学习--Policy Gradient

摘要：前面都是value based的方法，现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客一个推导推导下面的例子实现的REINFORCE算法实例代码 1 import sys 2 import gym 3 import py 阅读全文

posted @ 2019-01-10 15:15 阿夏z 阅读(1268) 评论(2) 推荐(0) 编辑

深度增强学习--Deep Q Network

摘要：从这里开始换个游戏演示，cartpole游戏 Deep Q Network 实例代码阅读全文

posted @ 2019-01-10 15:14 阿夏z 阅读(639) 评论(0) 推荐(0) 编辑

增强学习--Q-leraning

摘要： Q-learning 实例代码阅读全文

posted @ 2019-01-10 15:11 阿夏z 阅读(442) 评论(0) 推荐(0) 编辑

增强学习--Sarsa算法

摘要： Sarsa算法实例代码阅读全文

posted @ 2019-01-10 15:10 阿夏z 阅读(549) 评论(0) 推荐(0) 编辑

增强学习－－蒙特卡洛方法

摘要：蒙特卡洛方法实例代码下面代码是constant-α monte carlo，这里有一点介绍阅读全文