2024 年 8月 12 日随笔档案 - penuel

2024年8月12日

摘要： Model-free: Q learning, Sarsa, Policy Gradients Model-based: 能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种基于概率：Policy Gradients 基于价值：Q learning, Sarsa 两者融合阅读全文

posted @ 2024-08-12 19:28 penuel 阅读(6) 评论(0) 推荐(0) 编辑

penuel

公告