initial_h

2021年8月21日

Decision Transformer: Reinforcement Learning via Sequence Modeling

摘要： **发表时间：**2021 **文章要点：**这篇文章提出了一个Decision Transformer的模型，在offline RL的设定下，不用RL的方法学value function，也不需要做policy improvement，就可以达到甚至超过offline RL baseline。具体阅读全文

posted @ 2021-08-21 09:21 initial_h 阅读(790) 评论(0) 推荐(0) 编辑

2021年8月19日

Learning and Planning in Complex Action Spaces

摘要： **发表时间：**2021 **文章要点：**文章想说，在动作空间很大或者连续的时候，想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework，通过采用的方式来做MCTS（Sampled MuZero）。大概思路就是说，在MCT 阅读全文

posted @ 2021-08-19 02:12 initial_h 阅读(230) 评论(0) 推荐(0) 编辑

2021年8月16日

Vector Quantized Models for Planning

摘要： **发表时间：**2021（ICML 2021） **文章要点：**文章把MCTS扩展到带随机状态转移和部分可观测下。主要做法就是用VQ-VAE（参看Neural Discrete Representation Learning）自编码器来捕获一个动作可能造成的不同状态转移，然后和之前一样plann 阅读全文

posted @ 2021-08-16 06:39 initial_h 阅读(189) 评论(0) 推荐(0) 编辑

2021年8月10日

Neural Discrete Representation Learning(VQ-VAE)

摘要： **发表时间：**2018（NIPS 2017） **文章要点：**文章设计了一个新的基于VAE的自编码器Vector Quantised-Variational AutoEncoder (VQ-VAE)。区别在于之前的自编码器去学latent representation的时候都是去学一个连续的向阅读全文

posted @ 2021-08-10 06:29 initial_h 阅读(1358) 评论(0) 推荐(0) 编辑

2021年8月7日

Online and Offline Reinforcement Learning by Planning with a Learned Model

摘要： **发表时间：**2021 **文章要点：**文章接着muzero做的，当时muzero里面提出了一个MuZero Reanalyze（Reanalyse）的方式，这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是阅读全文

posted @ 2021-08-07 13:23 initial_h 阅读(400) 评论(2) 推荐(0) 编辑

2021年8月4日

BEBOLD: EXPLORATION BEYOND THE BOUNDARY OF EXPLORED REGIONS

摘要： **发表时间：**2020 **文章要点：**文章提出了一个叫BeBold（Beyond the Boundary of explored regions）的新的count-based的探索方法，缓解了short-sightedness and detachment的问题，在MiniGrid和Net 阅读全文

posted @ 2021-08-04 23:45 initial_h 阅读(148) 评论(0) 推荐(0) 编辑

2021年8月1日

The NetHack Learning Environment

摘要： **发表时间：**2020（NeurIPS 2020） **文章要点：**文章发布了一个复杂的强化学习的环境，可以用来研究exploration，planning，language-conditioned RL等等。环境是一个地宫类的游戏，相当于一层一层找门找地道，开地宫然后收集道具打怪兽，最终目标阅读全文

posted @ 2021-08-01 01:05 initial_h 阅读(113) 评论(0) 推荐(0) 编辑

2021年7月29日

Convex Regularization in Monte-Carlo Tree Search

摘要： **发表时间：**2021（ICML 2021） **文章要点：**之前PUCT的MCTS收敛速度是多项式的，这篇文章提出了凸正则化的方式将收敛速度提高到了指数级。主要修改的是PUCT这个采样策略，以及Q value的更新方式。通过Legendre-Fenchel transform把学Q变成了学一阅读全文

posted @ 2021-07-29 23:54 initial_h 阅读(109) 评论(0) 推荐(0) 编辑

2021年7月27日

From Motor Control to Team Play in Simulated Humanoid Football

摘要： **发表时间：**2021 **文章要点：**这篇文章有点长，主要是说训练了一个2v2的足球，使得运动方式拟人化，同时产生了合作和配合。方法上来说，分成三个阶段，第一个阶段用监督学习（imitation learning）的方式学习基本的拟人化运动方式，比如站立，走路，奔跑之类的；第二个阶段用强化的阅读全文

posted @ 2021-07-27 13:26 initial_h 阅读(197) 评论(0) 推荐(0) 编辑

2021年7月23日

Behaviour Suite for Reinforcement Learning（bsuite）

摘要： **发表时间：**2020（ICLR 2020） **文章要点：**这篇文章设计了一个工具用来分析RL agent的各种能力，比如有没有记忆功能，泛化性如何，探索能力强不强，credit assignment做得怎么样，对reward scale稳不稳健等等，然后自动生成一个pdf的测试报告，让你以阅读全文

posted @ 2021-07-23 04:50 initial_h 阅读(133) 评论(0) 推荐(0) 编辑

2021年7月21日

OFF-POLICY ACTOR-CRITIC WITH SHARED EXPERIENCE REPLAY（LASER）

摘要： **发表时间：**2019(ICML 2020) **文章要点：**这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正，主要是importance sampling和V-tra 阅读全文

posted @ 2021-07-21 13:58 initial_h 阅读(132) 评论(0) 推荐(0) 编辑

2021年7月20日

Safe and efficient off-policy reinforcement learning（Retrace）

摘要： **发表时间：**2016（NIPS 2016） **文章要点：**提出了一种新的在off-policy算法中修正behavior policy和target policy的方法：Retrace(λ)。最常见的修正当然是importance sampling，这个方式不仅用在value based方阅读全文

posted @ 2021-07-20 02:06 initial_h 阅读(215) 评论(0) 推荐(0) 编辑

2021年7月16日

MAXIMUM A POSTERIORI POLICY OPTIMISATION (MPO)

摘要： **发表时间：**2018（ICLR 2018） **文章要点：**从variational inference的角度引入了一种新的RL范式：最大化后验策略优化（MAXIMUM A POSTERIORI POLICY OPTIMISATION，MPO）。主要式子如上图，目标是使得获得最大reward 阅读全文

posted @ 2021-07-16 00:23 initial_h 阅读(550) 评论(0) 推荐(0) 编辑

2021年7月14日

Using Monte Carlo Tree Search as a Demonstrator within Asynchronous Deep RL

摘要： **发表时间：**2018（AAAI-19 Workshop on Reinforcement Learning in Games） **文章要点：**结合了A3C和MCTS，再加上一个预测terminal的辅助任务的loss，在Pommerman上取得了不错的效果。主要的方法就是在A3C的work 阅读全文

posted @ 2021-07-14 11:43 initial_h 阅读(99) 评论(0) 推荐(0) 编辑

2021年7月10日

Observe and Look Further: Achieving Consistent Performance on Atari

摘要： **发表时间：**2018 **文章要点：**文章提出DQN之所有不能解决所有Atari游戏有三个问题， 1：不同游戏的reward量级差别较大，不好直接学习，但是暴力clip到[-1,1]又使得reward没有区分度了，不能解决像bowling这种游戏。 2：γ通常只能设置到0.99，导致hori 阅读全文

posted @ 2021-07-10 01:51 initial_h 阅读(213) 评论(0) 推荐(0) 编辑

https://github.com/initial-h

公告