相关向量机
相关向量机是一种稀疏概率模型,是一种核函数作为基函数且参数具有独立先验精度(方差)的特殊线性回归模型。相关向量机的出现弥补了支持向量机的一些不足,如提供了概率解释,不要求核函数必须是正定的,同时保留了支持向量机的一些优点,如它的解是稀疏的,运用核函数在低维空间处理高维空间的问题。
相关向量机是一种线性回归模型,只是比通常的模型加了一些限制,线性模型均值如下所示:
在相关向量机里面, 表示的是一个由核函数组成的向量,它的第n个元素表示一个核函数。用表示数据矩阵,它的每一行表示一个核向量, t表示对应的目标值。那么似然函数如下所示:
与一般线性模型不同的是,我们对每个都给出一个相应的超参数,因此w的先验如下所示:
下面就是按照一般线性回归的思路得到w的后验概率,具体可参数prml第三章线性回归一章。
其中,
这里面是一个很常见的形式,表示了数据相应的精度矩阵,而表示先验部分的精度矩阵。
相关向量机的关键部分在于运用经验贝叶斯求解超参数。边缘似然函数通过对w进行积分掉得到:
这里为了公式简洁,省略了其它相关参数。
积分结果很简洁,是一个高斯分布
其中A是对角线为元素的对角矩阵
下面就是如何通过最大化边缘似然函数来求解的问题了,即经验贝叶斯。这里面公式推导比较繁琐,只给出最后结果。
,,
以上就是超参数的解,从上面可以看出,我们没有给出一个解析解,而是一种迭代形式,可以通过迭代的方式将超参数求出。
这里需要解释为什么它是稀疏的,因为通过上面的迭代过程,可以发现大部分超参数都趋向于一个非常的大数,可以认为是无穷大。从上面的式子中可以看出,参数与相应的超参数是一种反相关的关系,因此如果超参数趋向无穷大,相应的参数趋向0,从而相应的基函数对整个数据的预测就没有作用。那些剩下的超参数非无穷大的点与预测数据直接相关,称作相关向量,这种机制就是自动相关决策机制(automatic relevance determination ,简记ARD)。
最后总结一下相关向量机,相关向量只是在一般的线性模型上加了一些限制,一个是用了核向量作为基函数,一个是用独立的超参数作为参数的精度,应用经验贝叶斯和自动相关决策机制,得到稀疏解。这里面涉及一些复杂计算,具体可以参考PRML第三章和第七章。
参考文献
1 Pattern recognition and machine learning (第三章、第七章)作者:Christopher M.Bishop