模型从一无所知,到成为该领域的专业人士,又凭借其强大的计算能力,远远地甩开人类该领域的顶尖大师,模型能够学习规则和行为在于其背后有一个“好老师”,这位老师的使命不是上课,告知机器该怎么做,而是对机器的行为(policy network)进行打分和评判(value network),这样机器会记录如下:

  • 高分区:高分,取得高分对应的行为):努力取得高分;
  • 低分区:低分,哪些行为容易取得低分):竭力避免低分;

这样才能使机器的每一步选择都比较理想(分数导向性,类似于监督学习的标签数据),强化学习不同于监督学习的根本之处在于,强化学习不需要事先提供标记好的数据,它是通过一次次在环境中的尝试来获取数据和标签。

1. 强化学习方法

  • 对所处环境有无理解将全部的强化学习方法分为:

    • 不理解环境:Model-free RL
      • Q learning
      • Sarsa
      • Policy Gradients
    • 理解环境:Model-based RL,较之 Model-free 只是多了一道工序,为现实世界建模;
  • 基于概率还是基于价值:

    • Probability-based RL:未必固定,连续;
      • Policy Gradients
    • Value-based RL:比较固定,不连续;
      • Q Learning
      • Sarsa
    • Actor-Critic:二者的结合,先获取概率,再对概率对应的决策进行打分;
  • 根据更新方式:

    • 回合更新(Monte-carlo Update):游戏开始,游戏结束,也即需要等待游戏的结束,才进行更新;
    • 单步更新(Temporal-difference Update):不必等待游戏的结束,边玩游戏,边学习;
  • 是否在线:

    • on-policy
    • off-policy:
      • Q-learning
      • Deep Q Network
posted on 2017-01-06 23:50  未雨愁眸  阅读(187)  评论(0编辑  收藏  举报