强化学习分类

Model-free: Q learning, Sarsa, Policy Gradients
Model-based: 能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种

基于概率：Policy Gradients
基于价值：Q learning, Sarsa
两者融合：Actor-Critic

回合更新：Monte-carlo learning，基础版的 policy gradients
单步更新：Qlearning, Sarsa, 升级版的 policy gradients

在线学习：sarsa, sarsa lambda
离线学习： Q learning， Deep-Q-Network

posted @ 2024-08-12 19:28 penuel 阅读(90) 评论(0) 收藏举报

刷新页面返回顶部