摘要: #学习目标 1.了解表查找中函数逼近的动机 2.了解如何将函数逼近合并到现有算法中 3.了解函数逼近器和RL算法的收敛特性 4.了解使用经验重播的批处理 #总结 1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。 2. 阅读全文
posted @ 2020-08-24 10:37 feifanren 阅读(494) 评论(0) 推荐(0) 编辑