MODEL-ENSEMBLE TRUST-REGION POLICY OPTIMIZATION
发表时间:2018(ICLR 2018)
文章要点:这篇文章用ensemble的方式来度量model uncertainty,然后用来调整训练,避免policy利用model训练不充分(model bias)的地方进行学习,从而影响训练效果(policy optimization tends to exploit regions where insufficient data is available to train the model, leading to catastrophic failures)。
具体的,就是训练多个model,然后每次随机选一个model来predict下一个状态,避免policy在一个model上overfitting。以及用多个model来判断更新的好坏,如果在小于70%的model上效果都不如之前的policy,就终止在model里训练,回到真实的环境里面去收集数据,进行下一个循环。
总结:也是比较早的一篇文章了,现在很多度量model uncertainty的方法都是各种ensemble。另外,文章提到预测state的差,而不是去直接预测下一个state,感觉以后可以试试。还有一些小trick,比如训练model的时候分个验证集来做early stopping,对state做normalization等等。
疑问:突然想到,有buffer的model free算法是不是可以看做model based和model free的中间体。