Detecting Rewards Deterioration in Episodic Reinforcement Learning
发表时间:2021(ICML 2021)
文章要点:文章想说,我们训好一个policy之后,在真正用他的时候需要考虑安全性和可靠性(RL tasks is the safety and reliability of the system)。所以我们就需要一个方法来快速检测这个train好的policy在用的时候效果有没有变差,如果变差了,要尽快发现,以便及时调整或者终止他。作者的方式也是通过统计检验的方式来发现问题,把一个episode的reward看成一个样本,然后用统计检验的方式来发现问题。这里面也提了一大堆统计检验的方法hotelling statistic,sequential test,sequential probability ratio test cumulative sum test,dickey fuller test,alpha spending function,likelihood ratio test。然后比较了一堆检测方法的性能,比如Mean, CUSUM, Hotelling, UDT, PDT, Mixed Degradation Test (MDT)等等。
总结:这篇文章他是想做safe RL,对一个固定的policy和可能出现变动的环境来做的change point detection。我觉得可以把他用在training process的过程中来检测问题。他原本的意思是想检验reward有没有变差,我们可以用来检验training process过程中reward有没有继续上升,可以判断一下算法是不是work或者收敛了,也可以用来检验reward是不是变差了,可以判断是不是算法除了啥问题。
疑问:这个为啥定义成这个样,没看懂。
感觉和之前一样,要复习一下非参统计才行了。