线性降维-笔记(2)

4 - MDS

MDS全称"Multidimensional Scaling",多维缩放。其主要思想就是给定一个原始空间的，原始样本两两之间的距离矩阵；期望能在新空间中找到一个新的样本特征矩阵，使得其新样本两两之间的距离矩阵与原始的距离矩阵相等。因为$d' \leq d$，所以完成了降维的任务。

即假定有$m$个原始样本的距离矩阵为$D\in R^{m \times m}$,其第$i$行第$j$列元素$D_{ij}$为样本${\bf x}_i$和${\bf x}_j$之间的距离。以期望在$d'$维空间中找到样本表示的矩阵${\bf X}'\in R^{d'\times m}$，其中$d' \leq d$，且任意两个样本在$d'$维空间中的欧式距离等于原始空间中的距离，即$||{\bf x}_i-{\bf x}_j||=D_{ij}$.
ps：MDS大多都还是使用的欧式距离来作为样本之间的测量方法，更多的方法看下面的表4.1.

另${\bf D'}={\bf X'}^T{\bf X'}\in R^{m \times m}$,其中${\bf D'}$为降维后样本的内积矩阵，${D'}_{ij}={\bf x'}_i^T{\bf x'}_j$,则有：

\[\begin{eqnarray}D_{ij}^2 &=&||{\bf x'}_i-{\bf x'}_j||^2\\ &=&||{\bf x'}_i||^2+||{\bf x'}_j||^2-2{\bf x'}_i^T{\bf x'}_j\\ &=&{D'}_{ii}+{D'}_{jj}-2{D'}_{ij} \end{eqnarray}\tag{4.1}\]

假设求得的降维后样本已经中心化了，即$\sum_i^m{\bf x'}=m\mu_{\bf x'}=0$,则可以看出矩阵${\bf D'}$的行之和等于列之和都为零，即

\[\sum_i^m{D'}_{ij}=\sum_j^m{D'}_{ij}=0\tag{4.2} \]

则4.2，4.1可得：

\[\begin{eqnarray}\sum_i^m{D}_{ij}^2 &=&\sum_i^m\left({D'}_{ii}+{D'}_{jj}-2{D'}_{ij}\right)\\ &=&\sum_i^m{D'}_{ii}+m{D'}_{jj}-2\sum_i^m{D'}_{ij}\\ &=&tr({\bf D'})+m{D'}_{jj} \end{eqnarray}\tag{4.3}\]

同理：

\[\sum_j^m{D}_{ij}^2=tr({\bf D'})+m{D'}_{ii}\tag{4.4} \]

则：

\[\begin{eqnarray}\sum_i^m\sum_j^m{D}_{ij}^2 &=&\sum_i^m\left(tr({\bf D'})+m{D'}_{ii}\right)\\ &=&mtr({\bf D'})+\sum_i^mm{D'}_{ii}\\ &=&2mtr({\bf D'}) \end{eqnarray}\tag{4.5}\]

令：
${\overline D}_{i.}^2=\frac{1}{m}\sum_j^m{D}_{ij}^2\tag{4.6}$
${\overline D}_{.j}^2=\frac{1}{m}\sum_i^m{D}_{ij}^2\tag{4.7}$
${\overline D}_{..}^2=\frac{1}{m^2}\sum_i^m\sum_j^m{D}_{ij}^2\tag{4.8}$
由4.1-4.8得：

\[\begin{eqnarray}{D'}_{ij} &=&-\frac{1}{2}\left({D}_{ij}^2-{D'}_{ii}-{D'}_{jj}\right)\\ &=&-\frac{1}{2}\left[{D}_{ij}^2-\frac{1}{m}\left(\sum_j^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)-\frac{1}{m}\left(\sum_i^m{D}_{ij}^2-\frac{1}{2m}\sum_i^m\sum_j^m{D}_{ij}^2\right)\right]\\ &=&-\frac{1}{2}\left(D_{ij}^2-{\overline D}_{i.}^2-{\overline D}_{.j}^2+{\overline D}_{..}^2\right) \end{eqnarray}\]

从而可以计算得到降维后的样本距离矩阵$\bf D'$。
对矩阵$\bf D'$做特征值分解，${\bf D'}=\bf V\Lambda V^T$，其中${\bf \Lambda}=diag(\lambda_1,\lambda_2,...\lambda_d)$为特征值构成的对角矩阵，且按照从大到小排序，$\bf V$为特征向量矩阵，假设其中有$d^*$个非零特征值，则构成对角矩阵${\bf \Lambda}_*=diag(\lambda_1,\lambda_2,...\lambda_{d^*})$,令$\bf V_*$表示对应的特征向量矩阵，则${\bf X'}$可得：

\[{\bf X'}={\bf \Lambda_*^{1/2}}{\bf V}_*^T\in R^{{d^*}\times m} \]

表4.1 定量数据之间的相关性测量

距离测量	式子
欧式距离	$D_{rs}=\{\sum_i^d(x_{ri}-x_{si})^2\}^{1/2}$
权重欧式距离	$D_{rs}=\{\sum_i^dw_i(x_{ri}-x_{si})^2\}^{1/2}$
马氏距离	$D_{rs}=\{({\bf x}_{r}-{\bf x}_{s})^T\Sigma^{-1}({\bf x}_{r}-{\bf x}_{s})\}^{1/2}$
City block测量	$D_{rs}=\sum_i^d
Minkowski测量	$D_{rs}={\sum_i^dw_i
Canberra测量	$D_{rs}=\sum_i^d\frac{
Divergence	$D_{rs}=\frac{1}{d}\sum_i^d\frac{(x_{ri}-x_{si})^2}{(x_{ri}+x_{si})^2}$
Bray-Curtis	$D_{rs}=\frac{1}{d}\frac{\sum_i^d
Soergel	$D_{rs}=\frac{1}{d}\frac{\sum_i^d
Bhattacharyya距离	$D_{rs}=\sqrt{\sum_i^d\left(\sqrt{(x_{ri})}-\sqrt{(x_{si})}\right)^2}$
Wave-Hedges	$D_{rs}=\sum_i^d\left(1-\frac{\min(x_{ri},x_{si})}{\max(x_{ri},x_{si})}\right)$
Angular separation	$D_{rs}=1-\frac{\sum_i^dx_{ri}x_{si}}{\left[\sum_i^dx_{ri}^2\sum_i^dx_{si}^2\right]^{1/2}}$
Correlation	$D_{rs}=1-\frac{\sum_i^d(x_{ri}-\overline x_r)(x_{si}-\overline x_s)}{\left[\sum_i^d(x_{ri}-\overline x_r)^2\sum_i^d(x_{si}-\overline x_s)^2\right]^{1/2}}$

5 - ICA

6 - LFA

7 - LPP

参考文献:
[] 周志华机器学习
[] Michael A.A. Cox, Trevor F. Cox. Multidimensional Scaling

posted @ 2018-10-11 16:26 仙守阅读(355) 评论(0) 编辑收藏举报

刷新页面返回顶部

仙守

最美的不是下雨天,是曾与你躲过雨的屋檐!

线性降维-笔记(2)

4 - MDS

5 - ICA

6 - LFA

7 - LPP

公告

距离测量	式子
欧式距离	\(D_{rs}=\{\sum_i^d(x_{ri}-x_{si})^2\}^{1/2}\)
权重欧式距离	\(D_{rs}=\{\sum_i^dw_i(x_{ri}-x_{si})^2\}^{1/2}\)
马氏距离	\(D_{rs}=\{({\bf x}_{r}-{\bf x}_{s})^T\Sigma^{-1}({\bf x}_{r}-{\bf x}_{s})\}^{1/2}\)
City block测量	$D_{rs}=\sum_i^d
Minkowski测量	$D_{rs}={\sum_i^dw_i
Canberra测量	$D_{rs}=\sum_i^d\frac{
Divergence	\(D_{rs}=\frac{1}{d}\sum_i^d\frac{(x_{ri}-x_{si})^2}{(x_{ri}+x_{si})^2}\)
Bray-Curtis	$D_{rs}=\frac{1}{d}\frac{\sum_i^d
Soergel	$D_{rs}=\frac{1}{d}\frac{\sum_i^d
Bhattacharyya距离	\(D_{rs}=\sqrt{\sum_i^d\left(\sqrt{(x_{ri})}-\sqrt{(x_{si})}\right)^2}\)
Wave-Hedges	\(D_{rs}=\sum_i^d\left(1-\frac{\min(x_{ri},x_{si})}{\max(x_{ri},x_{si})}\right)\)
Angular separation	\(D_{rs}=1-\frac{\sum_i^dx_{ri}x_{si}}{\left[\sum_i^dx_{ri}^2\sum_i^dx_{si}^2\right]^{1/2}}\)
Correlation	\(D_{rs}=1-\frac{\sum_i^d(x_{ri}-\overline x_r)(x_{si}-\overline x_s)}{\left[\sum_i^d(x_{ri}-\overline x_r)^2\sum_i^d(x_{si}-\overline x_s)^2\right]^{1/2}}\)