Experience replay 经验回放

  1. Experience replay 经验回放

    1. 原始TD算法的缺点:
      1. 每一个transition用完之后就被舍弃了。
      2. 相邻state之间的相关性非常大,这对于训练是有害的,把用于训练的transition之间的顺序打散更利于训练。
    2. 经验回放:
      1. 使用replay buffer存储最近的n(10^5 ~ 10^6)条transition;
      2. 每次从replay buffer中随机抽取一个transition做随机梯度下降。
  2. 优先经验回放

    1. 给replay buffer中的transition不同的重要系数,系数由TD error决定,TD error越大,重要性系数越大,对于新进入buffer而没有被计算TD error的样本,设置其TD error为最大值。
    2. 使用非均匀抽样代替均匀抽样。
    3. 抽样概率较大的样本做梯度下降时,应该设置较小的学习率:\((np_t)^{-\beta} \cdot \alpha\)\(\beta\)是0到1之间的超参;
posted @ 2021-07-30 19:56  风和雨滴  阅读(120)  评论(0编辑  收藏  举报