ICLR2019论文选读

Supervised Policy Update for Deep Reinforcement Learning

  1. Supervised Policy Update (SPU);

  2. 在非参数化近端策略空间中制定并解决约束优化问题; 
  3. 监督回归,将最优的非参数化策略转换为参数化策略,从中采样新样本;
  4. 适用于离散和连续动作空间,并且可以处理非参数化优化问题的各种邻近约束;
  5. 以自然政策梯度和信任区域政策优化(NPG / TRPO)问题和近端政策优化 (PPO)问题的解决为例
  6. 效率方面:SPU在Mujoco模拟机器人任务中优于TRPO,在Atari视频游戏任务中 优于PPO.

Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning

  1. 进化策略(ES)可以被认为是基于梯度的算法,因为它通过类似于梯度的有限差分近似的操作来执行随机梯度下降.
  2. 基于非梯度的进化算法是否可以在DNN尺度上工作?
  3. 使用简单,无梯度,基于种群的遗传算法(GA)来演化DNN的权重,并且它在硬的深RL问题上表现良好,包括Atari和人形运动。
  4. Deep GA成功地发展了具有超过四百万个自由参数的网络, 迄今为止使用传统进化算法的最大的神经网络。
  5. 扩展了我们对GA运行规模的认识
  6. 在某些情况下,遵循梯度并不是优化性 能的最佳选择
  7. 提供多种神经进化技术提高性能
  8. DNN与新奇搜索相结合,可以解决奖励最大化算法的高维失败问题.
  9. Deep GA比ES,A3C和DQN更快

ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS

  1. 在NLP的自然语言中,较小的单元(例如,短语)嵌套在较大的单元(例如,子句)中
  2. 当一个更大的单元结束时,嵌套在其中的所有较小的组成部分也必须被关闭.
  3. 标准LSTM架构没有明确偏向建模成分的层次结构, 通过对神经元进行排序来添加这样的归纳偏差.
  4. 一个输入和遗忘门的向量确保当给定神经元被更新 时,在序列中跟随它的所有神经元也被更新.
  5. 新型recurrent架构,有序神经元LSTM(ON-LSTM),在语言建模,无监督解析,有针对性的句法评估和逻辑推理取得优秀效果.
posted @ 2019-05-14 19:23  笙玄羽  阅读(328)  评论(0编辑  收藏  举报