Learning from Labeled and Unlabeled Data with Label Propagation
概
本文通过将有标签数据传播给无标签数据, 并获得相应的无标签数据的一种可行标注. 所提出的算法是收敛的, 且有显式解.
符号说明
- \((x_1, y_1), \cdots, (x_l, y_l)\), 带标签数据, \(x_k \in \mathbb{R}^D\), \(y_k \in \mathbb{R}^C\) 是已知的概率向量.
- \((x_{l+1}, y_{l+1}), \cdots, (x_{l + u}, y_{l + u})\), 无标签数据, \(y_{l + k}\) 是未观测的;
- \(l \ll u\);
- \(X = \{x_1, \cdots, x_{l+u}\}\), \(Y_L = \{y_1, \cdots, y_l\}\), \(Y_{U} = \{y_{l+1}, \cdots, y_{l+u}\}\).
主要内容
我们的任务是通过 \(X, Y_L\) 来估计 \(Y_U\). 直观上, 我们希望靠的近的点拥有类似的标签, 我们首先定义 \(x_i, x_j\) 直接的一个距离:
假设图 \(\mathcal{G}\) 由顶点 \(X\) 和边 \(\mathcal{E}\) 构成, \(x_i, x_j\) 之前的权重定义为 \(w_{ij}\). 我们定义由 \(x_j\) 到 \(x_i\) 的转移概率为
倘若我们令
其中
则有
换言之, 通过聚合周围点为 \(j\) 的概率的能量为了 \(Y_{ij}'\),
代表了转移后 \(x_i\) 在不同标签上的一个能量分布状况. 但是需要注意的是, 此时我们并不能够保证
所以我们需要将其进行归一化, 以保证其符合概率分布.
于是, 我们可以将这些步骤总结为:
- \(Y' \leftarrow TY\);
- 对 \(Y'\) 进行行归一化得到 \(Y\);
- 将 \(Y\) 中的 \(Y_L\) 部分替换为真实标签信息.
- 反复迭代直到收敛.
注: \(Y_U\) 一开始是未知的, 故需要初始化, 但是通过下面的收敛性证明和显式解可以了解,
其实初始化是无关紧要的.
可以发现, 我们多了步骤三. 我们可以将 \(Y_L\) 看作是水源, 每次 \(TY\) 的过程实际上就是将水源中的真实信息推广到其它数据点的过程而已, 为此, 每次迭代用真实的 \(Y_L\) 以保证每次迭代的源头是新鲜活跃的.
收敛性证明和显式解
实际上, 步骤 1, 2 可以归纳为
其中
接下来我们证明其收敛性. 首先我们注意到对\(\overline{T}\)在 \(l\) 行 \(l\) 列进行分划, 可以得到
则有
反复迭代之后, 我们有
其中 \(Y^0\) 是 \(Y_U\) 的一个初始化.
我们首先证明 \(\overline{T}_{uu}^n \rightarrow 0\), 首先注意到
故由下方的 Lemma 1 可得 \(\overline{T}_{uu}^n \rightarrow 0\). 此外
故
Lemma 1: 假设矩阵 \(A \in \mathbb{R}^{m \times n}\), 且
则
proof:
注意到, 存在 \(\gamma\) 使得
则
故
故极限为0.
注: 作者还讨论关于超参数 \(\sigma\) 的选择问题, 并和诸如平均场理论进行了联系, 这些是有助于理解本文的工作的.