摘要:
PPO DPPO介绍 PPO实现 代码DPPO 阅读全文
摘要:
DDPG DDPG介绍2 ddpg输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测 公式推导 推导 代码实现的gym的pendulum游戏,这个游戏是连续动作的 pendulum环境介绍 代码实践 阅读全文
摘要:
A3C 它会创建多个并行的环境, 让多个拥有副结构的 agent 同时在这些并行环境上更新主结构中的参数. 并行中的 agent 们互不干扰, 而主结构的参数更新受到副结构提交更新的不连续性干扰, 所以更新的相关性被降低, 收敛性提高 代码实践 阅读全文
摘要:
DQN的变形 double DQN prioritised replay dueling DQN 阅读全文
摘要:
Actor Critic value-based和policy-based的结合 实例代码 阅读全文
摘要:
前面都是value based的方法,现在看一种直接预测动作的方法 Policy Based Policy Gradient 一个介绍 karpathy的博客 一个推导 推导 下面的例子实现的REINFORCE算法 实例代码 1 import sys 2 import gym 3 import py 阅读全文
摘要:
从这里开始换个游戏演示,cartpole游戏 Deep Q Network 实例代码 阅读全文
摘要:
Q-learning 实例代码 阅读全文
摘要:
Sarsa算法 实例代码 阅读全文
摘要:
蒙特卡洛方法 实例代码 下面代码是constant-α monte carlo,这里有一点介绍 阅读全文
摘要:
策略迭代 实例代码 阅读全文
摘要:
值迭代 实例代码 阅读全文