上一页 1 ··· 7 8 9 10 11 12 下一页
摘要: **发表时间:**2021 **文章要点:**这篇文章提出了一个Decision Transformer的模型,在offline RL的设定下,不用RL的方法学value function,也不需要做policy improvement,就可以达到甚至超过offline RL baseline。具体 阅读全文
posted @ 2021-08-21 09:21 initial_h 阅读(790) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**文章想说,在动作空间很大或者连续的时候,想要枚举所有动作来做MCTS是不现实的。作者提出了sample-based policy iteration framework,通过采用的方式来做MCTS(Sampled MuZero)。大概思路就是说,在MCT 阅读全文
posted @ 2021-08-19 02:12 initial_h 阅读(230) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICML 2021) **文章要点:**文章把MCTS扩展到带随机状态转移和部分可观测下。主要做法就是用VQ-VAE(参看Neural Discrete Representation Learning)自编码器来捕获一个动作可能造成的不同状态转移,然后和之前一样plann 阅读全文
posted @ 2021-08-16 06:39 initial_h 阅读(189) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(NIPS 2017) **文章要点:**文章设计了一个新的基于VAE的自编码器Vector Quantised-Variational AutoEncoder (VQ-VAE)。区别在于之前的自编码器去学latent representation的时候都是去学一个连续的向 阅读全文
posted @ 2021-08-10 06:29 initial_h 阅读(1358) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**文章接着muzero做的,当时muzero里面提出了一个MuZero Reanalyze(Reanalyse)的方式,这篇文章提出的MuZero Unplugged算法其实就是把MuZero Reanalyse用到offline RL里面。作者想说的就是 阅读全文
posted @ 2021-08-07 13:23 initial_h 阅读(400) 评论(2) 推荐(0) 编辑
摘要: **发表时间:**2020 **文章要点:**文章提出了一个叫BeBold(Beyond the Boundary of explored regions)的新的count-based的探索方法,缓解了short-sightedness and detachment的问题,在MiniGrid和Net 阅读全文
posted @ 2021-08-04 23:45 initial_h 阅读(148) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(NeurIPS 2020) **文章要点:**文章发布了一个复杂的强化学习的环境,可以用来研究exploration,planning,language-conditioned RL等等。环境是一个地宫类的游戏,相当于一层一层找门找地道,开地宫然后收集道具打怪兽,最终目标 阅读全文
posted @ 2021-08-01 01:05 initial_h 阅读(113) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICML 2021) **文章要点:**之前PUCT的MCTS收敛速度是多项式的,这篇文章提出了凸正则化的方式将收敛速度提高到了指数级。主要修改的是PUCT这个采样策略,以及Q value的更新方式。通过Legendre-Fenchel transform把学Q变成了学一 阅读全文
posted @ 2021-07-29 23:54 initial_h 阅读(109) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021 **文章要点:**这篇文章有点长,主要是说训练了一个2v2的足球,使得运动方式拟人化,同时产生了合作和配合。方法上来说,分成三个阶段,第一个阶段用监督学习(imitation learning)的方式学习基本的拟人化运动方式,比如站立,走路,奔跑之类的;第二个阶段用强化的 阅读全文
posted @ 2021-07-27 13:26 initial_h 阅读(197) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章设计了一个工具用来分析RL agent的各种能力,比如有没有记忆功能,泛化性如何,探索能力强不强,credit assignment做得怎么样,对reward scale稳不稳健等等,然后自动生成一个pdf的测试报告,让你以 阅读全文
posted @ 2021-07-23 04:50 initial_h 阅读(133) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019(ICML 2020) **文章要点:**这篇文章主要想把actor-critic方法里面加个replay buffer来提高采样效率。先是分析了把actor-critic变成off-policy的过程中需要做的修正,主要是importance sampling和V-tra 阅读全文
posted @ 2021-07-21 13:58 initial_h 阅读(132) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2016(NIPS 2016) **文章要点:**提出了一种新的在off-policy算法中修正behavior policy和target policy的方法:Retrace(λ)。最常见的修正当然是importance sampling,这个方式不仅用在value based方 阅读全文
posted @ 2021-07-20 02:06 initial_h 阅读(215) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(ICLR 2018) **文章要点:**从variational inference的角度引入了一种新的RL范式:最大化后验策略优化(MAXIMUM A POSTERIORI POLICY OPTIMISATION,MPO)。主要式子如上图,目标是使得获得最大reward 阅读全文
posted @ 2021-07-16 00:23 initial_h 阅读(550) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(AAAI-19 Workshop on Reinforcement Learning in Games) **文章要点:**结合了A3C和MCTS,再加上一个预测terminal的辅助任务的loss,在Pommerman上取得了不错的效果。主要的方法就是在A3C的work 阅读全文
posted @ 2021-07-14 11:43 initial_h 阅读(99) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018 **文章要点:**文章提出DQN之所有不能解决所有Atari游戏有三个问题, 1:不同游戏的reward量级差别较大,不好直接学习,但是暴力clip到[-1,1]又使得reward没有区分度了,不能解决像bowling这种游戏。 2:γ通常只能设置到0.99,导致hori 阅读全文
posted @ 2021-07-10 01:51 initial_h 阅读(213) 评论(0) 推荐(0) 编辑
上一页 1 ··· 7 8 9 10 11 12 下一页