1、Actor-Critic\TRPO\PPO算法都属于on-policy(类似重要性采样,old_pi还是自己的策略),DDPG是off-policy
2、on-policy数据用完就丢掉了,off-policy会用到经验回放(很大的存储上限,有收集样本和采集样本两个过程,采用均匀采样)
3、on-policy有一个缺点是交互序列导致前后相关性强,基于极大似然方法的机器学习模型要求训练样本是独立的且来自同分布,若不成立效果打折扣。