摘要: REF:强化学习——从Q-Learning到DQN到底发生了什么? 概念 时间差分法(TD方法) 强化学习入门 第四讲 时间差分法(TD方法) 强化学习(五) - 时序差分学习(Temporal-Difference Learning)及其实例 Sarsa算法, Q学习, 期望Sarsa算法 阅读全文
posted @ 2022-01-03 17:58 lvmxh 阅读(60) 评论(0) 推荐(0) 编辑