initial_h

2023年4月6日

摘要： **发表时间：**2021（ICML 2021） **文章要点：**这篇文章想说，通常强化都有一个policy网络一个value网络，这两部分要么分开训两个网络，要么合到一起作为一个网络的两个头。分开的好处是policy和value互相不会影响，合到一起的好处是feature是共享的，训练的时候相互阅读全文

posted @ 2023-04-06 23:43 initial_h 阅读(164) 评论(0) 推荐(0) 编辑

2023年4月3日

The Predictron: End-To-End Learning and Planning

摘要： **发表时间：**2017（ICML 2017） **文章要点：**这篇文章设计了一个叫Predictron的结构，在abstract的状态上进行学习，通过multiple planning depths来使得model self-consistent，进行端对端的学习。这里的设定是MRP，不是MD 阅读全文

posted @ 2023-04-03 10:48 initial_h 阅读(31) 评论(0) 推荐(0) 编辑

2023年3月30日

Sample-Based Learning and Search with Permanent and Transient Memories

摘要： **发表时间：**2008（ICML 2008） **文章要点：**这篇文章提出Dyna-2算法，把sample-based learning and sample-based search结合起来，并在Go上进行测试。作者认为，search算法是一种transient的算法，就是短期记忆用了就忘了阅读全文

posted @ 2023-03-30 12:02 initial_h 阅读(30) 评论(0) 推荐(0) 编辑

2023年3月27日

Learning model-based planning from scratch

摘要： **发表时间：**2017 **文章要点：**这篇文章想说，之前的文章去做planning的时候，都会去设计一个planning的方法。这篇文章提出了一个端到端的方法，Imagination-based Planner，不去设计planning的方式，做到全部的端对端训练，agent会决定什么时候去阅读全文

posted @ 2023-03-27 23:24 initial_h 阅读(44) 评论(0) 推荐(0) 编辑

2023年3月23日

Discretizing Continuous Action Space for On-Policy Optimization

摘要： **发表时间：**2020（AAAI 2020） **文章要点：**作者想说，连续动作通常都假设每个维度是高斯分布的，这就限制了策略一定是一个单峰，而离散动作就没有这个约束，所以有离散的必要。然后这篇文章提出了一个把连续动作空间离散化的方法，同时避免维度爆炸。通常如果一个连续空间有$M$个维度，如果阅读全文

posted @ 2023-03-23 12:04 initial_h 阅读(55) 评论(0) 推荐(0) 编辑

2023年3月20日

Finite-time Analysis of the Multiarmed Bandit Problem

摘要： **发表时间：**2002（Machine Learning, 47, 235–256, 2002） **文章要点：**这篇文章主要是分析了针对Multiarmed Bandit Problem的几个经典算法的收敛性。我们知道这类问题主要就是在解决exploration versus exploit 阅读全文

posted @ 2023-03-20 07:45 initial_h 阅读(165) 评论(0) 推荐(0) 编辑

2023年3月18日

Disentangling the independently controllable factors of variation by interacting with the world

摘要： **发表时间：**2018（Learning Disentangled Representations, NIPS 2017 Workshop） **文章要点：**这篇文章想说，可以分解出独立的可控的各种因素的表征才叫好的representation，作者就说通过policy和环境交互的过程是可以实阅读全文

posted @ 2023-03-18 23:35 initial_h 阅读(16) 评论(0) 推荐(0) 编辑

2023年3月6日

COMBINING Q-LEARNING AND SEARCH WITH AMORTIZED VALUE ESTIMATES

摘要： **发表时间：**2020（ICLR 2020） **文章要点：**这篇文章提出Search with Amortized Value Estimates(SAVE)算法，将Q-learning和MCTS结合起来。用Q value来指导MCTS，然后用得到的Q-estimates来更新Q value 阅读全文

posted @ 2023-03-06 01:03 initial_h 阅读(66) 评论(0) 推荐(0) 编辑

2023年3月4日

Bandit based Monte-Carlo Planning

摘要： **发表时间：**2006（ECML 2006） **文章要点：**这篇文章提出了UCT算法，把bandit的UCB1算法用到Monte-Carlo planning里面。首先假设我们有一个generative model，就是我给一个状态和动作，就告诉我下一个状态和reward。有了这个mode 阅读全文

posted @ 2023-03-04 00:18 initial_h 阅读(103) 评论(0) 推荐(0) 编辑

2023年2月25日

Monte-Carlo tree search as regularized policy optimization

摘要： **发表时间：**2020（ICML 2020） **文章要点：**这篇文章把MCTS和policy optimization结合起来，说AlphaZero这类算法其实可以看作是带正则项的policy optimization（AlphaZero's search heuristics, along 阅读全文

posted @ 2023-02-25 23:04 initial_h 阅读(78) 评论(0) 推荐(0) 编辑

2022年12月7日

HIERARCHICAL REINFORCEMENT LEARNING BY DISCOVERING INTRINSIC OPTIONS

摘要： **发表时间：**2021（ICLR 2021） **文章要点：**这篇文章提出了一个分层强化学习算法HIDIO (HIerarchical RL by Discovering Intrinsic Options)，用自监督的方式来学习任务无关的options，避免了人为设计，同时利用这些optio 阅读全文

posted @ 2022-12-07 08:44 initial_h 阅读(71) 评论(0) 推荐(0) 编辑

2022年11月25日

PROCEDURAL GENERALIZATION BY PLANNING WITH SELF-SUPERVISED WORLD MODELS

摘要： **发表时间：**2022(ICLR2022) **文章要点：**这篇文章基于muzero来度量model-based agent的泛化能力。主要研究了三个因素：planning, self-supervised representation learning, and procedural dat 阅读全文

posted @ 2022-11-25 12:28 initial_h 阅读(35) 评论(0) 推荐(0) 编辑

2022年6月6日

Deep Exploration via Bootstrapped DQN

摘要： **发表时间：**2016（NIPS 2016） **文章要点：**这篇文章提出了Bootstrapped DQN算法来做深度探索。作者认为，当前的探索策略比如ϵ-greedy，并没有进行深度探索（temporally-extended (or deep) exploration）。Deep exp 阅读全文

posted @ 2022-06-06 23:46 initial_h 阅读(294) 评论(0) 推荐(1) 编辑

Policy Distillation

摘要： **发表时间：**2016（ICLR 2016） **文章要点：**这篇文章考虑的情形是从一个RL的policy网络提取策略，迁移到另一个policy网络。其实就是知识迁移（Distillation is a method to transfer knowledge from a teacher m 阅读全文

posted @ 2022-06-06 23:44 initial_h 阅读(102) 评论(0) 推荐(0) 编辑

2022年6月2日

MinAtar: An Atari-Inspired Testbed for Thorough and Reproducible Reinforcement Learning Experiments

摘要： **发表时间：**2019 **文章要点：**这篇文章做了一个简化版的Atari。现在的Atari game还是太慢了，大家做实验基本上都跑不超过5个随机种子，实验说服力不够。这篇文章搞了个简化版，输入只有10*10*n的binary的表征,其中n表示channel（n channels corre 阅读全文

posted @ 2022-06-02 21:52 initial_h 阅读(100) 评论(0) 推荐(0) 编辑

https://github.com/initial-h

公告