图像，矩阵以及鲁棒性笔记

1.黑白图像不是二维数据。图像的维度，实际上是图像中特征向量的数量。用向量数据化图像，想象按行扫描，遇到的每一个像素都是向量的一个元素，像素个数就是向量维数；例如二维图像矩阵表示为:256*256=65536，维数还是很高的。一个100x100像素的图像其灰度图产生的特征向量是10000维度，而1920x1080像素的图像则对应2073600维度的特征向量。

2.图像降维：降维算法中的”降维“，指的是降低特征矩阵中特征的数量。

假设一个矩阵 $X$ (大小为 $n \times p$ ,已经归一化), 那么可以得到一个 $p \times p$ 的协方差矩阵 $\sum=X^TX$ 。这是一个对称矩阵，特征向量正交。

因此应用SVD分解 $\sum = V\wedge V^T$ 。其中 $V$ 是特征向量组成的矩阵（ $VV^T=I$ ）， $\wedge$ 是由特征值组成的对角矩阵。特征向量对应数据的主要方向。然后就是把数据投影到这个方向上来。那么投影后为 $XV$ 。

如果只取前 $k$ 个特征值对应的特征向量，那么原本 $X$ ( $n \times p$ )可以变成 $XV_{p\times k}$ ( $n \times k$ ),完成了降维。

2.假设我们要执行面部识别，即基于带有标记的面部图像训练数据集来确定人的身份。一个办法是把图像上每个像素的亮度作为特征。如果输入图像的大小是32×32，这意味着该特征向量包含1024个特征值。判断新的图像通过计算这1024维矢量与我们训练数据集中特征向量之间的欧氏距离完成。然后最小距离告诉我们正在寻找的那个人。

因为2D数据的特征向量是2维的，三维数据的特征向量是3维的，1024维数据的特征向量是1024维。换句话说，为了可视化，我们可以重塑每个1024维特征向量到一个32×32的图像。图10展示了由剑桥人脸数据集的特征分解获得的前四个特征向量：
这里写图片描述

每个1024维特征向量可以映射到N个最大的特征向量，并可以表示为这些特征脸的线性组合。这些线性组合的权重确定人的身份。因为最大特征向量表示数据中的最大方差，所以这些特征脸描述信息量最大的图像区域（眼睛，鼻子，嘴等）。只考虑前N（例如，N = 70）个特征向量，特征空间的维数大大减少了。剩下的问题是现在使用了多少个特征脸，或者在一般情况下，应保留多少个特征向量。

特征脸提取具体步骤以及介绍：Eigenface-based facial recognition

2.Certified Adversarial Robustness via Randomized Smoothing

代码地址: http://github.com/locuslab/smoothing.

定义： “smoothed” classifier g