摘要: PPO DPPO介绍 PPO实现 代码DPPO 阅读全文
posted @ 2019-01-10 19:37 阿夏z 阅读(1410) 评论(0) 推荐(0) 编辑
摘要: DDPG DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测 公式推导 推导 代码实现的gym的pendulum游戏,这个游戏是连续动作的 pendulum环境介绍 代码实践 阅读全文
posted @ 2019-01-10 19:36 阿夏z 阅读(2441) 评论(0) 推荐(0) 编辑
摘要: A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高 代码实践 阅读全文
posted @ 2019-01-10 19:35 阿夏z 阅读(724) 评论(0) 推荐(0) 编辑
摘要: DQN的变形 double DQN prioritised replay dueling DQN 阅读全文
posted @ 2019-01-10 19:34 阿夏z 阅读(221) 评论(0) 推荐(0) 编辑
摘要: Actor Critic value-based和policy-based的结合 实例代码 阅读全文
posted @ 2019-01-10 15:16 阿夏z 阅读(1061) 评论(0) 推荐(0) 编辑
摘要: 前面都是value based的方法,现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客 一个推导 推导 下面的例子实现的REINFORCE算法 实例代码 1 import sys 2 import gym 3 import py 阅读全文
posted @ 2019-01-10 15:15 阿夏z 阅读(1268) 评论(2) 推荐(0) 编辑
摘要: 从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 阅读全文
posted @ 2019-01-10 15:14 阿夏z 阅读(639) 评论(0) 推荐(0) 编辑
摘要: Q-learning 实例代码 阅读全文
posted @ 2019-01-10 15:11 阿夏z 阅读(442) 评论(0) 推荐(0) 编辑
摘要: Sarsa算法 实例代码 阅读全文
posted @ 2019-01-10 15:10 阿夏z 阅读(549) 评论(0) 推荐(0) 编辑
摘要: 蒙特卡洛方法 实例代码 下面代码是constant-α monte carlo,这里有一点介绍 阅读全文
posted @ 2019-01-10 15:08 阿夏z 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 策略迭代 实例代码 阅读全文
posted @ 2019-01-10 15:06 阿夏z 阅读(306) 评论(0) 推荐(0) 编辑
摘要: 值迭代 实例代码 阅读全文
posted @ 2019-01-10 15:06 阿夏z 阅读(251) 评论(0) 推荐(0) 编辑