240
笔下虽有千言,胸中实无一策

学习笔记 | Morvan - Reinforcement Learning, Part 1: Overview

Overview

Note

  1. 关键词

    试错,打分,环境,学习

  2. 分类

    通过价值选行为 直接选行为 想象环境,并从中学习

    基于价值

    不基于价值

    Q learning

    Sarsa

    Deep Q Network

    Policy Gradients Model based RL

    不理解环境(Model-free RL)

    理解环境(Model-based RL)

     

  3. 回合更新vs单步更新

    单步更新更有效率,现在常用的Q-learning, Sarsa等都是单步更新

  4. on-policy vs off-policy

    从当前经验学习是on-policy;从过往经验和别人经验学习是off-policy(?)

 

posted @ 2017-01-20 02:23  CasperWin  阅读(203)  评论(0编辑  收藏  举报