摘要: 近来发现自己概念有些混淆,写一点自己对从Sutton书上看到的这些方法之间联系的理解和想法。 【如有不恰当的地方,欢迎指正!】 前言 强化学习的初始驱动就是通过和环境互动得到的奖励来评估经历过的状态或状态下选择的动作的好坏,从而选择出合适的策略进行控制。 所以最好的办法就是之前DP提到的利用贝尔曼方 阅读全文
posted @ 2022-04-12 21:11 芋圆院长 阅读(102) 评论(0) 推荐(0) 编辑