CogSci 2017-Learning to reinforcement learn

Key

元学习系统（监督+从属）扩展于RL设置
LSTM用强化学习算法进行训练，可以使agent获得一定的学习适应能力

解决的主要问题

DRL受限于特定的领域
DRL训练需要大量的数据

作者参考了Hochreiter在2001年发表的Learning to Learn Using Gradient Descent论文的方法：（1）元学习系统由从属系统和监督系统两部分组成（2）循环网络可以在完全监督的环境下支持元学习

文章内容

Introduction

使用标准的深度RL技术来训练递归神经网络，以使递归网络实现其自己的独立RL过程
- 一个使用RL算法训练的系统，但它的递归动力学实现了另一个完全独立的RL过程
- 在适当的情况下，二级学习的RL程序可以显示出原始RL程序所缺乏的适应性和样本效率
Methods
- 元学习结合神经网络（Hochreiter等人的相关方法）
- DEEP META-RL
  Meta-Learning的输入变成RL设置
  - agent接收到的输入指示了上一步的动作输出和该动作所产生的奖励（critical），而不是将目标输出作为辅助输入。
  - 同样的奖励信息被平行地提供给一个DRL程序，该程序调整循环网络的权值。
  文章中强调的一个关键点：这个学习到的RL过程可能与用于训练网络权值的算法截然不同。特别是，它的策略更新过程(包括该过程的有效学习率等特性)可能与调整网络权值所涉及的过程有显著差异，并且学习到的RL过程可以实现自己的探索方法。关键的是，在监督的情况下，学习到的RL过程将适合跨多任务环境的统计，使其能够快速适应。（这里递归网络实现的过程本身是一个成熟的强化学习算法，它协商探索-利用权衡，并基于奖励结果改进代理的策略）
- formalism
  - 一个适当结构的agent嵌入一个循环神经网络，通过与序列的交互来训练MDP环境(也称为任务)。
  - 在一个新的episode开始时，采样一个新的MDP任务m ~ D和该任务的初始状态，并重置agent的内部状态(即，在其循环单位上的激活模式)。然后，代理在此环境中针对一定数量的离散时间步长执行其动作选择策略。在每一步t上，作为当前的整个历史轨迹episode的的函数执行动作a(从episode开始，循环单元被重置)。训练网络权重使所有步骤和片段的观察奖励总和最大化。
  - 训练后，agent的策略是固定的(即权重是固定的，但由于环境的输入和循环层的隐藏状态，激活是变化的)，并对一组mdp进行评估，这些mdp要么来自相同的分布D，要么是对该分布稍加修改(以测试代理的泛化能力)。内部状态在任何新episode的评估开始时被重置。
  - 由于代理学习到的策略是依赖于历史的(因为它使用了一个循环网络)，所以当暴露于任何新的MDP环境时，它能够适应和部署一个策略，以优化该任务的回报
Experiments
- 研究问题
  - meta-RL是否符合完全成熟的RL，可以在exploration and exploitation tradeoff
  - meta-RL是否可以提高学习效率
- 实验设置
  - 赌博机实验
  - MARKOV DECISION PROBLEMS
Conclusion

Deep Meta-RL包含三个成分的组合:
(1)使用深度RL算法训练递归神经网络
(2)包括一系列相互关联的任务的训练集
(3)网络输入，包括选择的动作和在前一个时间点收到的奖励
Meta-RL关键：产生了一种利用任务结构中的不变性的学习认知学习算法

文章方法的优缺点

优点
- 元学习思想使得RL利用之前的经验信息
- 能够快速适应新任务
缺点
- 基于上下文的，RL中在处理的时候需要一个完整episode
- 泛化性适用范围是在众多MDP具有某种相似性的时候

Summary

这篇论文主要是利用了2001年提出的元学习系统idea，把输入换成了RL设置的输入。目的是想要最优动作，标准RL的policy函数的输入只有当前s,即根据当前状态来选择动作。由于RNN的存在，即需要之前的信息，输入就变成了上一次a,r,和当前s，来选择动作a

论文链接
 版权归原作者 Lee_ing 所有

上一篇ICANN 2001-Learning to Learn Using Gradient Descent

下一篇lec-1-Deep Reinforcement Learning, Decision Making, and Control

本文作者：Lee_ing

本文链接：https://www.cnblogs.com/yunshalee/p/16243349.html

posted @ 2022-05-07 19:30 lee_ing 阅读(84) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

Lee_ing

CogSci 2017-Learning to reinforcement learn

Key

解决的主要问题

文章内容

Introduction

Methods

Experiments

Conclusion

文章方法的优缺点

Summary

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论