强化学习第七章
1、策略迭代、价值迭代、泛化迭代的前提条件:智能体知道环境的状态转移概率,即是基于模型的问题
2、蒙特卡洛方法采样:随机采样估计期望值,通过样本序列逼近真实的期望值。 成立原因:大数定理。
3、探索和利用,探索指的是不拘于当前的表现,选择不同于当前策略的行动;利用是持续使用当前的最优策略,尽可能的获得更多的回报。
4、蒙特卡洛方法的缺点:估计值的方差大。估计值方差大则均值收敛需要更长时间。方差大的原因:每次掷骰子的数字都不同,采样频率的问题,会多次出现同一个状态,在计算的过程中没有区分第一次到达这个状态和第二次到达,是every-visit的方式,可以改成采用first-visit的方式减小方差,但没有显著提高。
优点:数据量足够大的时候,对期望值的估计是无偏的。
5、时序差分法与Sarsa:TD法结合了动态规划和蒙特卡洛方法,利用了最优子结构的思想。
但是他是为了缩小方差使得误差变大了,蒙特卡洛方法是为了极小的误差使得方差变大,TD方法结果没有MC好。
6、Q-learning:它和Sarsa只在一个地方有区别,Sarsa遵循了真实的交互序列,根据真实的行动进行价值的估计,Q-learning在下一时刻选择了使得价值最大的行动,没有遵循交互序列。
存在”过高估计“的问题,使用最优价值的行动替代交互时候使用的行动。 200页两个步骤,关于收敛性证明暂时没看懂?????
7、DQN算法两个突出点:
(1)replay buffer 回放机制:
Q学习方法基于当前策略进行交互和改进,每一次模型利用交互的数据学习,学习后样本被丢弃。存在两个问题:一个是交互得到的序列存在相关性。而对于基于极大似然的机器学习模型来说,假设就是训练样本是独立且来自同分布的,假设不成立则效果大打折扣。另一个是交互数据的使用效率低,模型训练需要多轮迭代才能收敛,没用用过就丢弃花的时间长。
样本回放保存了交互的样本信息,保存当前的状态s、动作a和长期累积回报v。buffer的大小设置的比较大,达到100万个样本这么多,新的样本把久远的样本覆盖,之后均匀的从样本中随机采样进行学习。
(2)target network目标网络:
引入和表现网络一样的模型,目标网络由表现网络的参数延时更新而来,目标价值由目标网络计算得到。用它和表现网络的估计值比较进行表现网络参数的更新。