Laplacian Eigenmaps与LPP(Locality Preserving Projections)简介

一、拉普拉斯特征映射(Laplacian Eigenmaps)

1.Introduction

机器学习与模式识别的一个核心问题是找到一种合适的对复杂数据的表示。
我们把这个问题叫做数据低维流形的嵌入在高维空间的表示。本文基于
Laplacian矩阵，对流形的Laplace Beltrami操作，热力学方程等之间的联系，提出了一种由几何学驱动的用于表示高维数据的算法。该算法提供了一个计算上非常高效的方法，用于非线性降维，并具有保留局部关系的特性，同时与聚类有着天然的联系。

在人工智能、信息检索、数据挖掘领域，人们经常遇到低维数据lie in 于非常高的维度上。比如，在固定光照条件下通过移动照相机产生的不同的灰度图，通常可以表示为每个像素的亮度值。如果有$n^2$的个像素，那么就会产生$ R^{n2}$的数据点。然而，这些数据点真实的维度应该只是照相机拍照的自由角度的个数。在这种情况下，这个维度空间可以认为自然地具有低维流形在高维空间的嵌入的结构。

对降维问题的研究有着很长的历史。经典的方法有PCA和MDS等。不同的非线性降维方法也被考虑过。它们中的大部分，比如自组织网络（SOM）和其它基于神经网络的方法，都建立了一个非线性优化问题，该问题可以通过梯度下降来产生一个局部最优解。它们很难得到一个全局的最优解。然而，Kernal PCA却没有这些缺点。大部分这些方法都没有考虑数据可能依赖的流形结构。

本文所述的方法建立了一个带有邻居节点信息的数据集的图。算法产生的表示映射可以被看作流形的几何结构产生的连续映射的一个离散估计。该算法的亮点有：

核心算法很简单。它只需要很少的本地计算和一个稀疏矩阵特征值计算问题。然而，它需要搜索高维空间的近邻节点。
算法的证明来源于Laplace Beltrami操作可以提供低维流形的最优嵌入。通过计算数据点的邻接图来表示流形的一个近似。Laplace Beltrami操作可以用带权值的Laplace 邻接图来表示。Laplace Beltrami操作在热力学方程中的角色使得我们可以通过热核方程来选择权值衰减方程。因此，数据的嵌入映射是Laplace Beltrami操作的特征映射的估计。
本算法的局部特征保留特性使得它可以孤立点和噪音不会那么敏感。通过保留局部信息，算法隐式地突出了数据的自然群落。
可以用于生物识别上
由于本算法基于流形的内在几何结构，因此它展示出嵌入的稳定性。只要嵌入是等度量的(Isometric)，这个表示就是不变的。在移动相机的例子里，相机不同的解析度将会导致同一个流形嵌入到不同维度的空间中去。我们的算法可以产生相似的表现（Representation）,即使是不同的分辨率。

降维问题的概述：给定$R^l$空间的k个节点的集合$x_1$,$x_2$ $\cdots$ $x_k$,找到$R^m$空间(m<<l)的k个点集$y_1$,$y_2$,$\cdots$,$y_k$，使得$y_i$可以表示(Represent)$x_i$。在本文中，我们假设一种特殊情况，$x_1$,$x_2$,$\cdots$,$x_k$ $\in$ M 且M是$R^l$空间的一个流形嵌入。

2. Algorithm

给定$\mathbb R^l$空间的k个点$x_1$,$\cdots$,$x_k$，我们构建k个点的权值矩阵。算法步骤如下:

Step1(构建邻接图).$x_i$与$x_j$很接近(close)时，我们在这两个点之间放置一条边。有两种选择标准：

(a) $\epsilon$-neighborhoods($\epsilon\in\mathbb R$).在$R_l$空间的欧几里得范数的条件下，当$|| x_i-x_j ||^2 \lt \epsilon$时，我们记作节点i和j被一条边相连。这样做的优点是：来源于几何学的方法，相互间的关系是天然对称的。缺点是：经常导致图中只有很少的部分相连，选择一个合适的$ \epsilon $很难。

(b) n-nearest-neighbors($n\in\mathbb R$).如果i是j的k紧邻且j是i的k紧邻，那么我们就记作i和j被一条边相连。优点：容易选择；不会导致图不连通。缺点：缺少几何学上的直观性。
Step2(选择权重).给边加权重也有两种方法：

(a) 热核法($t\in\mathbb R$).如果节点i和j相连，那么

\[W_{ij}\,=\,e^{-{{\parallel x_i - x_j \parallel}^2 \over t}} \]

否则，设置$W_{ij} = 0$

(b) 简单法. i与j相连，$W_{ij} = 1$，否则=0

Step3(特征映射).假设上面步骤构建的图G是连通的.否则,需要在每个连通分量上面执行Step3.计算以下特征问题的特征值与特征矩阵:

\[L{\mathbf f} \,=\lambda D\mathbf f \qquad(2.1) \]

其中,D是一个对角权重矩阵,它对角上的值是W每一行或列的和.$D_{ii}\,=\,\sum_j W_{ji}.$ L = D - W 是Laplacian矩阵,它是对称的半正定矩阵,可以被看作定义在图G顶点的函数的运算.令$\mathbf f_0,\cdots, \mathbf f_{k-1}$为方程2.1的一个解,那么有:

\[\begin{split}L\mathbf f_0 &= \lambda_0 D \mathbf f_0 \\ L\mathbf f_1 &= \lambda_1 D \mathbf f_1 \\ &\cdots \\ L\mathbf f_{k-1} &= \lambda_{k-1} D \mathbf f_{k-1} \\ 0\,&=\,\lambda_0 \le \lambda_1 \le \cdots \le \lambda_{k-1} \end{split}\]

我们舍弃特征值为0的特征向量$\mathbf f_0$,使用余下的m个特征向量来嵌入到m维的欧几里得空间:

\[x_i \to (\mathbf f_1(i),\cdots \mathbf f_m(i)) \]

3. Justification

首先证明Laplacian Eigenmap算法提供的嵌入最优地保留了局部信息.以下部分基于标准的谱图理论.
回想一下,给定一个数据集,我们构建了一个图G=(V,E),其中的边与附近的点相互连接.假定图是连通的.现在来看一下这个问题,把权重矩阵G映射为一条线以便于相互连接的点尽可能保持很靠近.令$\mathbf y = (\mathit {y_1,y_2,\cdots,y_n})^T$是这样的一个矩阵.一个合理的选择"好"的映射的标准是最小化以下目标函数(在某些限制条件下),

\[\sum_{ij}({\mathit y_i\,-\,y_j})^2\mathbf W_{ij}$$, 如果近邻节点$x_i$和$x_j$被映射到很远的距离,我们选择的权值$\mathbf W_{ij}$会在目标函数中施加一个重的惩罚(个人解释:$x_i$-$x_j$较小时,$\mathbf W_{ij}$会较大,此时若$y_i - y_j$较大,则$(y_i\,-y_j)^2\mathbf W_{ij}$该项会较大,就会成为目标函数优化的重点,起到了惩罚的作用 ).因此,最小化目标函数就是要保证当$x_i$与$x_j$很靠近时,$y_i$与$y_j$也很靠近. 显然,对于任何向量$\mathbf y$,我们都有 $${1 \over 2}\sum_{i,j}(y_i-y_j)^2\mathbf W_{ij}\,=\,\mathbf {y^TLy}\qquad(3.1)\]

为了证明这个,注意到 $\mathbf w_{ij}$是对称矩阵且$D_{ii}\,=\,\sum_j\mathbf W_{ij}$,因此有

\[\begin{split} &\sum_{ij}(y_i-y_j)^2\mathbf W_{ij} \\=&\,\sum_{ij}(y_i^2+y_j^2-2y_iy_j)\mathbf W_{ij} \\ =&\,\sum_iy_i^2D_{ii}+\sum_jy_j^2D_{jj}-2\sum_{i,j}y_iy_j\mathbf W_{ij} \\=& 2\mathbf {y^TLy} \end{split}\]

由此,最小化问题可以表示为

\[\underset{\mathbf y}{\operatorname{argmin}}\,\mathbf {y^TLy} \quad s.t.\,\mathbf {y^TDy} = 1 \]

限制条件$\mathbf {y_TDy} = 1$ 移除了嵌入时的随意缩放因素.矩阵D提供了图中顶点的天然的度量.$D_{ii}$越大,该顶点越"重要".L是半正定矩阵,且最小化目标函数获得的$\mathbf y$ 向量通过求以下特征值问题的解来获得:

\[\mathbf {Ly\,=\,\lambda Dy}. \]

令$\mathbf 1$为全1的列向量.容易知道,$\mathbf 1$是特征值为0时的特征向量.如果图时连通的,那么$\mathbf 1$是$\lambda=0$时唯一的特征向量.为了淘汰这个没用的解(该解会导致图G中所有顶点都变成1),我们增加一个额外的正交限制条件:

\[\underset{\mathbf {y^TDy}=1,\mathbf {y^TD1=0} }{\operatorname{argmin}}\mathbf {y^TLy}. \]

于是,方程的解现在成了最小非零特征值的特征向量.条件$\mathbf {y^TD1}=0$可以解释为移除了向量$\mathbf y$的平移不变性.
现在来看一下一个更加通用的问题,将图嵌入到m维的欧几里得空间.这个嵌入通过一个kxm的矩阵$\mathbf Y=[\mathbf{y_1(i),y_2(i),\cdots,y_m(i)}]$来实现,其中第i行表示第i个顶点的嵌入的坐标.我们需要最小化

\[\sum_{i,j}{\parallel \mathbf{y^{(i)}-y^{(j)}} \parallel}^2\mathbf W_{ij}\,=\,tr(\mathbf Y^TLY) \]

其中,$\mathbf y^{(i)}\,=\,[y_1(i),\cdots,y_m(i)]^T$是第i个顶点的m维表示.这就简化为求

\[\underset{\mathbf {Y^TDY=I}}{\operatorname{argmin}}tr(\mathbf {Y^TLY}). \]

对于一维嵌入问题,限制条件可以防止塌陷为一个点.对于m维的嵌入问题,限制条件可以防止塌陷到一个低于m-1维的子空间中去.问题的标准解法是求方程$\mathbf Ly\,=\,\lambda Dy$的最小的几个特征值所对应的特征向量.

4. t值的选取

目前并没有一个理论化的方法来指导我们如何选取热核参数t.然而,我们通过"瑞士卷"数据集的实验验证了热核参数t和近邻个数N对低维表现的影响.很显然,当N非常大的时候,选择一个正确的t至关重要.选择一个较小的t可以改善表现的质量,但是当N也较小时,就没有太大的改善.对于较小的N,实验结果并不怎么依赖于t的大小.

二、局部保留投影LPP(Locality Preserving Projections)算法简介

1. 知识预备:

环绕空间(Ambient Space)： 二维物体的Ambiet Space是一个平面(Plane)，三维物体的Ambiet Space是一个三维空间。环绕空间(Ambient Space)：二维物体的Ambiet Space是一个平面(Plane)，三维物体的Ambiet Space是一个三维空间。
Laplace Beltrami算子

2. 概述

LPP对数据集建立了一张图，这张图包含有节点的邻居节点的信息。

LPP算法主要是在当高维数据依赖于低维流形在环绕空间(Ambient Space)的嵌入时，找到了对流形进行Laplace Beltrami操作的特征函数的一个最优线性近似。这样做的好处是，LPP算法拥有诸多非线性技术（例如LE或LLE算法）等的数据表示属性。

LPP算法是一种线性降维方法，更重要的是，它还可以被定义在环绕空间的任何地方，而不仅仅是训练集里。
这个算法生成的表现映射可以被看作流形的几何结构的连续映射的线性离散近似。LPP对数据集建立了一张图，这张图包含有节点的邻居节点的信息。

LPP算法是一种线性降维方法，更重要的是，它还可以被定义在环绕空间的任何地方，而不仅仅是训练集里。

这个算法生成的表现映射可以被看作流形的几何结构的连续映射的线性离散近似。

3. LPP算法的特征

该映射被设计用于最小化一个不同于传统线性方法的目标函数。
LPP算法的局部保留特性可以特定地用在信息检索上面。信息检索需要在低维空间进行最近邻搜索。由于LPP算法可以保留局部的结构，因此在低维空间的最近邻搜索可以获得跟在高维空间时的类似的效果。这样就可以获得一个快速检索的索引方案。
LPP是线性的.
LPP被定义在空间的任何一点。与之对比的是，ISOMAP，LLE，LE等算法都只能用于训练数据上，而对于新的测试数据却并没有一个比较好的映射。
LPP算法可以被引入数据集所映射到的RKHS(再生核希尔伯特空间)，因此就有了核LPP算法。

4.LPP算法步骤

(1)构建邻接矩阵(方法同LE算法)

(2)选择权值(同LE算法）

(3)特征映射

求以下问题的特征值与特征向量

\[\mathbf {XLX^Ta} = \lambda\mathbf {XDX^Ta} \qquad (1) \]

令列向量$\mathbf{a_0,\cdots,a_{l-1}}$是方程(1)的解向量,这些向量按照特征值由小到大排列,对应的特征值为
$\mathbf {\lambda_0\,\lt\,\cdots\lt\lambda_{l-1}}$.于是,嵌入映射可以表示如下:

\[\bf x_i \to \bf y_i\,=\,A^T\bf x_i,A=(\bf {a_0,a_1,\cdots,a_{l-1}}) \]

其中,$\bf y_i$是一个l维的向量,A是一个$n\,\times\,l$的矩阵.

5. LPP算法的证明

目标函数

\[\sum_{ij}(y_i-y_j)^2W_{ij} \]

设$\bf a$是变换矩阵,即$\bf y^T\,=\,\bf a^TX$,通过简单的代数方程,目标函数可以被简化为

\[\begin{split} &{1 \over 2}\sum_{ij}(y_i-y_j)^2W_{ij}\\=&\,{1 \over 2}\sum_{ij}(\bf a^T\bf x_i-\bf a^T\bf x_j)^2W_{ij} \\ =&\,\sum_i\bf a^T\bf x_i D_{ii}\bf x_i^T \bf a\,-\,\sum_{ij}\bf a^T\bf x_i W_{ij} \bf x_j^T\bf a\\ =&\,\bf a^TX(D-W)X^T\bf a\\=&\,\bf a^TXLX^T\bf a \end{split}\]

其中,$D_{ii} = \sum_jW_{ij}$,L=D-W.
我们对方程施加一个如下的限制条件

\[\bf {y}^TD\bf {y}\,=\,1 \Rightarrow \bf {a}^TXDX^T\bf {a}\,=\,1 \]

最后,最小化问题可以简化为

\[\underset{\underset{\bf a^TXDX^Ta=1}{a}}{\operatorname{argmin}}\bf a^TXLX^Ta \]

该最小化问题可以被转化为以下特征方程的最小特征值问题:

\[XLX^T\bf {a}\,=\,\lambda XDX^T\bf a \]

很显然,$XLX^T$和$XDX^T$是对称的半正定矩阵.

Reference

[1] Belkin, Mikhail and Niyogi, Partha. Laplacian eigenmaps for dimensionality reduction and data representation. Neural computation. 15(6). 2003:1373-1396.
[2] He, Xiaofei and Niyogi, Partha. Locality preserving projections. NIPS. 2003:234-241.

posted @ 2017-06-25 00:27 poxiaoge 阅读(6371) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

poxiaoge

光中有影，影中有光。光影相随，直至终焉。