上一页 1 2 3 4 5 6 7 8 ··· 12 下一页
摘要: **发表时间:**2021(ICML 2021) **文章要点:**这篇文章想说,通常强化都有一个policy网络一个value网络,这两部分要么分开训两个网络,要么合到一起作为一个网络的两个头。分开的好处是policy和value互相不会影响,合到一起的好处是feature是共享的,训练的时候相互 阅读全文
posted @ 2023-04-06 23:43 initial_h 阅读(164) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2017(ICML 2017) **文章要点:**这篇文章设计了一个叫Predictron的结构,在abstract的状态上进行学习,通过multiple planning depths来使得model self-consistent,进行端对端的学习。这里的设定是MRP,不是MD 阅读全文
posted @ 2023-04-03 10:48 initial_h 阅读(31) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2008(ICML 2008) **文章要点:**这篇文章提出Dyna-2算法,把sample-based learning and sample-based search结合起来,并在Go上进行测试。作者认为,search算法是一种transient的算法,就是短期记忆用了就忘了 阅读全文
posted @ 2023-03-30 12:02 initial_h 阅读(30) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2017 **文章要点:**这篇文章想说,之前的文章去做planning的时候,都会去设计一个planning的方法。这篇文章提出了一个端到端的方法,Imagination-based Planner,不去设计planning的方式,做到全部的端对端训练,agent会决定什么时候去 阅读全文
posted @ 2023-03-27 23:24 initial_h 阅读(44) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(AAAI 2020) **文章要点:**作者想说,连续动作通常都假设每个维度是高斯分布的,这就限制了策略一定是一个单峰,而离散动作就没有这个约束,所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法,同时避免维度爆炸。通常如果一个连续空间有$M$个维度,如果 阅读全文
posted @ 2023-03-23 12:04 initial_h 阅读(55) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2002(Machine Learning, 47, 235–256, 2002) **文章要点:**这篇文章主要是分析了针对Multiarmed Bandit Problem的几个经典算法的收敛性。我们知道这类问题主要就是在解决exploration versus exploit 阅读全文
posted @ 2023-03-20 07:45 initial_h 阅读(165) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2018(Learning Disentangled Representations, NIPS 2017 Workshop) **文章要点:**这篇文章想说,可以分解出独立的可控的各种因素的表征才叫好的representation,作者就说通过policy和环境交互的过程是可以实 阅读全文
posted @ 2023-03-18 23:35 initial_h 阅读(16) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICLR 2020) **文章要点:**这篇文章提出Search with Amortized Value Estimates(SAVE)算法,将Q-learning和MCTS结合起来。用Q value来指导MCTS,然后用得到的Q-estimates来更新Q value 阅读全文
posted @ 2023-03-06 01:03 initial_h 阅读(66) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2006(ECML 2006) **文章要点:**这篇文章提出了UCT算法,把bandit的UCB1算法用到Monte-Carlo planning里面。 首先假设我们有一个generative model,就是我给一个状态和动作,就告诉我下一个状态和reward。有了这个mode 阅读全文
posted @ 2023-03-04 00:18 initial_h 阅读(103) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2020(ICML 2020) **文章要点:**这篇文章把MCTS和policy optimization结合起来,说AlphaZero这类算法其实可以看作是带正则项的policy optimization(AlphaZero's search heuristics, along 阅读全文
posted @ 2023-02-25 23:04 initial_h 阅读(78) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2021(ICLR 2021) **文章要点:**这篇文章提出了一个分层强化学习算法HIDIO (HIerarchical RL by Discovering Intrinsic Options),用自监督的方式来学习任务无关的options,避免了人为设计,同时利用这些optio 阅读全文
posted @ 2022-12-07 08:44 initial_h 阅读(71) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2022(ICLR2022) **文章要点:**这篇文章基于muzero来度量model-based agent的泛化能力。主要研究了三个因素:planning, self-supervised representation learning, and procedural dat 阅读全文
posted @ 2022-11-25 12:28 initial_h 阅读(35) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2016(NIPS 2016) **文章要点:**这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为,当前的探索策略比如ϵ-greedy,并没有进行深度探索(temporally-extended (or deep) exploration)。Deep exp 阅读全文
posted @ 2022-06-06 23:46 initial_h 阅读(294) 评论(0) 推荐(1) 编辑
摘要: **发表时间:**2016(ICLR 2016) **文章要点:**这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher m 阅读全文
posted @ 2022-06-06 23:44 initial_h 阅读(102) 评论(0) 推荐(0) 编辑
摘要: **发表时间:**2019 **文章要点:**这篇文章做了一个简化版的Atari。现在的Atari game还是太慢了,大家做实验基本上都跑不超过5个随机种子,实验说服力不够。这篇文章搞了个简化版,输入只有10*10*n的binary的表征,其中n表示channel(n channels corre 阅读全文
posted @ 2022-06-02 21:52 initial_h 阅读(100) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 12 下一页