摘要: 我的理解: Q learning Sarsa 在一个回合内: 初始化s 1. choose(s, Q) => action (策略) 2. move(action, s, Q) => s_ , R 3. Q_fresh(action, s, Q, s_, R) => new_Q (最大值策略) 4. 阅读全文
posted @ 2019-07-04 10:47 可爱小小畅 阅读(254) 评论(0) 推荐(0) 编辑