高斯场与调和函数
高斯场与调和函数是一种半监督的学习方法,也是一种直推式学习(transductive learning)方法。即测试样本是已知的,所以在学习的过程中,可以充分利用测试样本,以使学习出来的模型能更好的预测测试样本。
1. 高斯随机场 (Gaussian Random Fields)
有$ l \(个已标记的样本\) (x_1, y_1),...,(x_l, y_l) $, $ u \(个未标记的样本\) x_{l+1},..., x_{l+u} \(。使用\)L\(和\)U\(分别表示标记样本与未标记样本集合。假设这是个两类问题,则\)y_L \in \{0,1\}\(。将每个样本当作一个结点,构建一个连接图\)G=(V,E)\(,其中V是结点,E是边。使用\)n \times n\(的权重矩阵\)W\(来表示边。\)W$可以用RBF核计算:
在结点上,定义一个实值函数:$f:L \cup U \rightarrow \mathbb{R} $。我们希望相似的结点,其类别标签也相似。所以可定义二次能量函数
希望寻找合适的\(f\),使得能量函数最小。因为标记数据的类别是已知的,可以给\(f\)增加约束条件\(f(i)=y_i, i\in L\)。
定义\(f\)函数的概率分布:
\(\beta\)是参数,\(Z\)是配分函数
我们更感兴趣的是\(p(f_i|Y\_L), i \in U\)。
\(p(f)\)和\(p(f\_U|Y\_L)\)都是服从多元高斯分布。这就是为什么\(p\)被称为高斯随机场。
2. 图拉普拉斯(The Graph Laplacian)
此处引入组合拉普拉斯\(\Delta\)。定义对角矩阵\(D\),其中\(D\_{ii}=\sum_j W\_{ij}\)是结点\(i\)的度。拉普拉斯定义为
则能量函数可以记作:
高斯随机场可以写作:
\(p(f)\)是\(f\)的二次函数。\(\Delta\)是高斯分布的精度矩阵。如果\(W\)是对称且非负的,则\(\Delta\)一定至少是半正定的。
3. 调和函数 (Harmonic Functions)
可以证明,最小能量函数\(f=argmin\_{f\_L=Y\_L}E(f)\)是调和的。也就是,在未标记数据上\(\Delta f=0\),在标记数据上\(\Delta f=Y\_L\)。下文中,我们使用\(h\)来表示这个调和函数。
调和函数的性质,意味着每个未标记点的\(h(i)\)值是其近邻的平均值:
这也与图的平滑性假设相一致。由于调和函数的最大值原理,\(h\)是唯一的,且当\(i\in U\)时,\(0 \le h(i) \le 1\) (当\(i\in L\)时,\(h(i)=0\)或\(1\))。
为了求解调和函数\(h\),我们将权重矩阵\(W\),\(D\)和\(\Delta\)分割成\(4\)块:
通过上述的性质\(\Delta h = 0\)和\(h\_L = Y\_L\),可以得
上述结果与label propagation算法的结果一样。其中\(P = D^{-1}W\)是图的变换矩阵。
4. 总结
给定标记样本 \((x\_1, y\_1),..,(x\_l, y\_l)\) 与未标记样本 $x_{l+1},..., x_{l+u} $,可以通过上述过程,求解出未标记样本的类别标签。
首先求解出调和函数\(h\)
再通过\(h\),求解出\(Y\_U\)
此外,该方法还与随机游走(Random Walk),弹性网络(Electric Networks)以及图切(Graph Mincut)都有着紧密的联系。甚至与图的谱聚类,核正则化等都有着联系。
参考文献:
- Xiaojin Zhu, Zoubin Ghahramani, and John Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In The 20th International Conference on Machine Learning (ICML), 2003. ICML 10-Year Classic Paper Prize.
- Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon University, 2005. CMU-LTI-05-192.