Experience replay 经验回放

Experience replay 经验回放
1. 原始TD算法的缺点：
  1. 每一个transition用完之后就被舍弃了。
  2. 相邻state之间的相关性非常大，这对于训练是有害的，把用于训练的transition之间的顺序打散更利于训练。
2. 经验回放：
  1. 使用replay buffer存储最近的n(10^5 ~ 10^6)条transition；
  2. 每次从replay buffer中随机抽取一个transition做随机梯度下降。
优先经验回放
1. 给replay buffer中的transition不同的重要系数，系数由TD error决定，TD error越大，重要性系数越大，对于新进入buffer而没有被计算TD error的样本，设置其TD error为最大值。
2. 使用非均匀抽样代替均匀抽样。
3. 抽样概率较大的样本做梯度下降时，应该设置较小的学习率：\((np_t)^{-\beta} \cdot \alpha\)，\(\beta\)是0到1之间的超参；

posted @ 2021-07-30 19:56 风和雨滴阅读(120) 评论(0) 编辑收藏举报

刷新页面返回顶部

风和雨滴