2019 年 7月 4 日随笔档案 - 可爱小小畅

2019年7月4日

摘要：我的理解: Q learning Sarsa 在一个回合内：初始化s 1. choose(s, Q) => action (策略) 2. move(action, s, Q) => s_ , R 3. Q_fresh(action, s, Q, s_, R) => new_Q （最大值策略） 4. 阅读全文

posted @ 2019-07-04 10:47 可爱小小畅阅读(254) 评论(0) 推荐(0) 编辑

需要鼓励

公告