摘要: 前几天面试的时候被问到RL一些基础算法的区别,回来抽空做了一些整理方便加深理解。 On policy与off policy 为了解决强化学习中探索与利用的平衡问题,可以采用两个策略训练模型,一个策略为行为策略,用于保持探索性,提供多样化的数据,不断优化另一个策略(目标策略)。 on policy的目 阅读全文
posted @ 2019-05-13 13:35 Ruidongch 阅读(1844) 评论(0) 推荐(0) 编辑