摘要: Model-free: Q learning, Sarsa, Policy Gradients Model-based: 能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种 基于概率:Policy Gradients 基于价值:Q learning, Sarsa 两者融合 阅读全文
posted @ 2024-08-12 19:28 penuel 阅读(6) 评论(0) 推荐(0) 编辑