2021 年 5月 26 日随笔档案 - 芋圆院长

2021年5月26日

摘要： n步时序差分方法是单独的蒙特卡罗和时序差分方法更一般的推广，性能通常优于那两种极端形式。 n步TD预测 MC使用完整奖赏序列一步TD基于下一步奖赏，将一步后的状态值作为剩余奖赏的近似值进行引导更新 n步自举将MC与TD统一，灵活选择用未来n步的数据进行引导更新。更新是基于中间数量的奖赏值 n步Sa 阅读全文

posted @ 2021-05-26 21:22 芋圆院长阅读(223) 评论(0) 推荐(0) 编辑

芋圆院长

公告