强化学习的理论分析和实际模型性能间的差距

强化学习中的理论分析可以分为两种,第一种就是完全的理论模型推导;第二种则是举个例子,用一个自我构造出的MDP过程来作为说明的例子,然后根据这个例子推导出的效果来说明理论有效性,这其中可以包括收敛性证明,相同最优策略证明,等等。

这两种理论证明的方式看似第一种比第二种更高大上,更靠谱,实际上二者的实际效果都差不多。由于强化学习算法本身的理论难度和工程难度都比较高,因此理论分析出的模型往往在实际的效果都有限。举个例子说明:在策略梯度定理中,我们可以看到策略的梯度是根据整体全部样本的折扣分布概率来进行计算的,但是除了在基于表格的强化学习问题以外是不可能有那个问题是可以对所有样本进行全部采样的,因此在实际的基于函数近似的强化学习算法中我们对样本的采样概率是不作任何处理的,也就是说所有的参加计算的样本均不带有任何概率项(不乘以任何概率项,或者理解为相乘的概率值为1)。

强化学习的策略梯度定理的证明是十分的漂亮的,但是在实际应用中却没有人会直接使用该定理的,人们都是会使用不带折扣出现概率的样本加权来进行计算的,这样做虽然会严重的带入偏差但是既可以有效的加快训练过程的收敛从而获得较好的解(次优解)。严格使用策略梯度定理的环境只有一个,那就是可以使用表格法来表示状态和状态值\(V\)与状态动作值\(Q\)的情况下,而这种使用表格法的问题是十分有限的,或者说这样的问题主要用于理论解释的情况下,而在实际应用中几乎是没有意义的;在使用函数拟合的问题背景下,我们就不能完全依照策略梯度定理来进行计算而是要使用加权为1的样本(不使用折扣出现概率为权重系数)来进行计算,虽然该种作法会引入偏差但是可以有效的使函数拟合的强化学习策略进行收敛到可以接受的解,而严格按照策略梯度定理的形式进行计算则难以收敛到可以接受的解。有这个例子就可以清楚的发现在强化学习问题中理论和实践的差距,一个理论上证明的形式在实际应用中则需要一定的修正,而这种修正则是完全没有理论支持的,唯一的解释就是发现如此的修改能收敛,好用。

第二种使用例子来说明某个所提的定理的这种方式在强化学习论文中也是极为常见的,在强化学习这样的人工智能学科和计算机学科里面对于定理这个名词的定义和数学学科下还是有着显著不同的,在数学这样的学科之下对于定理的证明是需要有严格的数学理论推导的,然后再计算机类和人工智能类的论文中则不会如此的严谨,也正是如此才会在强化学习方向的研究论文中出现很大比例的使用某个MDP结构定义下的问题来证明自己说提算法的依据的自己所提的定理的有效性。


在人工智能的论文中有时候定理的证明或许只是为了好发表论文,发表论文更好看些,比如强化学习问题中某人提出某个算法,这里标记为A算法,与其他人所提算法B进行性能的理论上的对比分析,最后得到证明是算法A的最优策略与算法B的最优策略相同,但是这样能说明什么呢,这个证明在表格法的问题中是有价值的,因为表格法的问题一般都是可以收敛到最优策略的,但是对于深度学习时候、神经网络的函数拟合时代,这样的定理的证明是十分的鸡肋的(或许只是为了好看和好发表),因为在神经网络拟合的背景下不论是A算法还是B算法都是无法收敛到最优解(最优策略)的,因此实际上有意义的比较是算法A和B在收敛到次优解的情况下那个算法的效果、性能更优,比如收敛的更快,或者收敛到的次优解更优。


总结:

不论上面所提的强化学习方向的论文中对于定理证明的两种方式和实践应用的区别,我们都可以清楚的知道在强化学习类这样的人工智能方向的论文中对于定理的证明要求并不是十分的严谨,其要求也只是提供必要的理论解释说明即可,甚至可以直接举个简单例子来证明这个定理的有效性,而这只能说明一个问题,那就是在人工智能方向的学科中定理证明确实有意义,但是至于到底要怎么用则是要看实际应用中的效果的。



image-20241008093729408

posted on 2024-10-07 22:59  Angry_Panda  阅读(4)  评论(0编辑  收藏  举报

导航