强化学习简介

  • 不理解环境(Model-Free RL)
    • Q Learning
    • Sarsa
    • Policy Gradients
  • 理解环境

基于概率

基于价值

posted @ 2019-08-28 19:15  FromZeroToOne  阅读(103)  评论(0编辑  收藏  举报