线性降维-笔记(2)

4 - MDS

MDS全称"Multidimensional Scaling",多维缩放。其主要思想就是给定一个原始空间的,原始样本两两之间的距离矩阵;期望能在新空间中找到一个新的样本特征矩阵,使得其新样本两两之间的距离矩阵与原始的距离矩阵相等。因为\(d' \leq d\),所以完成了降维的任务。

即假定有\(m\)个原始样本的距离矩阵为\(D\in R^{m \times m}\),其第\(i\)行第\(j\)列元素\(D_{ij}\)为样本\({\bf x}_i\)\({\bf x}_j\)之间的距离。以期望在\(d'\)维空间中找到样本表示的矩阵\({\bf X}'\in R^{d'\times m}\),其中\(d' \leq d\),且任意两个样本在\(d'\)维空间中的欧式距离等于原始空间中的距离,即\(||{\bf x}_i-{\bf x}_j||=D_{ij}\).
ps:MDS大多都还是使用的欧式距离来作为样本之间的测量方法,更多的方法看下面的表4.1.

\({\bf D'}={\bf X'}^T{\bf X'}\in R^{m \times m}\),其中\({\bf D'}\)为降维后样本的内积矩阵,\({D'}_{ij}={\bf x'}_i^T{\bf x'}_j\),则有:

\[\begin{eqnarray}D_{ij}^2 &=&||{\bf x'}_i-{\bf x'}_j||^2\\ &=&||{\bf x'}_i||^2+||{\bf x'}_j||^2-2{\bf x'}_i^T{\bf x'}_j\\ &=&{D'}_{ii}+{D'}_{jj}-2{D'}_{ij} \end{eqnarray}\tag{4.1}\]

假设求得的降维后样本已经中心化了,即\(\sum_i^m{\bf x'}=m\mu_{\bf x'}=0\),则可以看出矩阵\({\bf D'}\)的行之和等于列之和都为零,即

\[\sum_i^m{D'}_{ij}=\sum_j^m{D'}_{ij}=0\tag{4.2} \]

则4.2,4.1可得:

\[\begin{eqnarray}\sum_i^m{D}_{ij}^2 &=&\sum_i^m\left({D'}_{ii}+{D'}_{jj}-2{D'}_{ij}\right)\\ &=&\sum_i^m{D'}_{ii}+m{D'}_{jj}-2\sum_i^m{D'}_{ij}\\ &=&tr({\bf D'})+m{D'}_{jj} \end{eqnarray}\tag{4.3}\]

同理:

\[\sum_j^m{D}_{ij}^2=tr({\bf D'})+m{D'}_{ii}\tag{4.4} \]

则:

\[\begin{eqnarray}\sum_i^m\sum_j^m{D}_{ij}^2 &=&\sum_i^m\left(tr({\bf D'})+m{D'}_{ii}\right)\\ &=&mtr({\bf D'})+\sum_i^mm{D'}_{ii}\\ &=&2mtr({\bf D'}) \end{eqnarray}\tag{4.5}\]

令:
\({\overline D}_{i.}^2=\frac{1}{m}\sum_j^m{D}_{ij}^2\tag{4.6}\)
\({\overline D}_{.j}^2=\frac{1}{m}\sum_i^m{D}_{ij}^2\tag{4.7}\)
\({\overline D}_{..}^2=\frac{1}{m^2}\sum_i^m\sum_j^m{D}_{ij}^2\tag{4.8}\)
由4.1-4.8得:

\[\begin{eqnarray}{D'}_{ij} &=&-\frac{1}{2}\left({D}_{ij}^2-{D'}_{ii}-{D'}_{jj}\right)\\ &=&-\frac{1}{2}\left[{D}_{ij}^2-\frac{1}{m}\left(\sum_j^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)-\frac{1}{m}\left(\sum_i^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)\right]\\ &=&-\frac{1}{2}\left(D_{ij}^2-{\overline D}_{i.}^2-{\overline D}_{.j}^2+{\overline D}_{..}^2\right) \end{eqnarray}\]

从而可以计算得到降维后的样本距离矩阵\(\bf D'\)
对矩阵\(\bf D'\)做特征值分解,\({\bf D'}=\bf V\Lambda V^T\),其中\({\bf \Lambda}=diag(\lambda_1,\lambda_2,...\lambda_d)\)为特征值构成的对角矩阵,且按照从大到小排序,\(\bf V\)为特征向量矩阵,假设其中有\(d^*\)个非零特征值,则构成对角矩阵\({\bf \Lambda}_*=diag(\lambda_1,\lambda_2,...\lambda_{d^*})\),令\(\bf V_*\)表示对应的特征向量矩阵,则\({\bf X'}\)可得:

\[{\bf X'}={\bf \Lambda_*^{1/2}}{\bf V}_*^T\in R^{{d^*}\times m} \]

表4.1 定量数据之间的相关性测量

距离测量 式 子
欧式距离 \(D_{rs}=\{\sum_i^d(x_{ri}-x_{si})^2\}^{1/2}\)
权重欧式距离 \(D_{rs}=\{\sum_i^dw_i(x_{ri}-x_{si})^2\}^{1/2}\)
马氏距离 \(D_{rs}=\{({\bf x}_{r}-{\bf x}_{s})^T\Sigma^{-1}({\bf x}_{r}-{\bf x}_{s})\}^{1/2}\)
City block测量 $D_{rs}=\sum_i^d
Minkowski测量 $D_{rs}={\sum_i^dw_i
Canberra测量 $D_{rs}=\sum_i^d\frac{
Divergence \(D_{rs}=\frac{1}{d}\sum_i^d\frac{(x_{ri}-x_{si})^2}{(x_{ri}+x_{si})^2}\)
Bray-Curtis $D_{rs}=\frac{1}{d}\frac{\sum_i^d
Soergel $D_{rs}=\frac{1}{d}\frac{\sum_i^d
Bhattacharyya距离 \(D_{rs}=\sqrt{\sum_i^d\left(\sqrt{(x_{ri})}-\sqrt{(x_{si})}\right)^2}\)
Wave-Hedges \(D_{rs}=\sum_i^d\left(1-\frac{\min(x_{ri},x_{si})}{\max(x_{ri},x_{si})}\right)\)
Angular separation \(D_{rs}=1-\frac{\sum_i^dx_{ri}x_{si}}{\left[\sum_i^dx_{ri}^2\sum_i^dx_{si}^2\right]^{1/2}}\)
Correlation \(D_{rs}=1-\frac{\sum_i^d(x_{ri}-\overline x_r)(x_{si}-\overline x_s)}{\left[\sum_i^d(x_{ri}-\overline x_r)^2\sum_i^d(x_{si}-\overline x_s)^2\right]^{1/2}}\)

5 - ICA

6 - LFA

7 - LPP

参考文献:
[] 周志华 机器学习
[] Michael A.A. Cox, Trevor F. Cox. Multidimensional Scaling

posted @ 2018-10-11 16:26  仙守  阅读(355)  评论(0编辑  收藏  举报