各种算法的优缺点:
遮挡情况下的误差并不满足高斯或者拉普拉斯分布。L1误差分布服从拉普拉斯分布,L2误差分布服从高斯分布。
一个信息相似矩阵需要含有如下三个特性:高鉴别能力,自适应邻域,高稀疏性。
https://www.52ml.net/15063.html,整理了朴树贝叶斯,逻辑回归,决策树,SVM等分类器的优缺点
1.SRC
1)、SRC对测试集中的噪声比较鲁棒,但是当训练集中同样含有噪声时,效果往往较差,因为SRC需要用一个纯净的训练集来训练一个非常好的字典。
【原话:Bing-Kun, B., Guangcan, L., Richang, H., Shuicheng, Y. and Changsheng, X. (2013) General subspace learning with corrupted training data via graph embedding, IEEE Trans. on Image Process., 22, 4380-4393.】 Representation Classifier (SRC) [24] is a robust supervised method and can correct the corruptions possibly existing in testing data, but cannot well handle the cases where the training data themselves are corrupted [25].
2)、当数据维数很大时,SRC对于特征抽取不敏感,但是一个学习好的字典能够导致更加精确和稳定的识别结果。
3)||y-Xa||_2,2范数约束服从高斯分布,1范数服从拉普拉斯分布【Regularized Robust Coding for Face Recognition】,一般情况下,这种高斯或者拉普拉斯先验知识是无效的,仅仅当测试样本y存在遮挡或者噪声时有效。对于鲁棒的人脸识别而言,误差曲线对于两端尾部的拟合要比峰值点更重要。而对于尾部的拟合,拉普拉斯要好于高斯。
4)SRC认为同类样本处于同一线性子空间,然而当人脸部分遮挡时,该结论不成立。
5)SRC对于系数的约束项lambda,该值越大越稀疏。
6) SRC随机的从一组高相似样本中选取一个样本。
7)SRC的缺陷:要求字典D中的原子(其实也可以看成是训练样本)是严格配准的。
(8) 为了提高鲁棒性,SRC通常添加一个单位矩阵作为遮挡等的字典。遮挡的区域通常不能被不带遮挡的训练集很好的重构,因此可以利用重构误差来检测遮挡区域。
(9)当样本维度增大时,SRC计算代价越大。
(10)重构对于去除噪声或遮挡有一定的效果,这也是SRC比其他算法好的原因之一。
2 PCA
PCA是使用最广泛的降维方法和误差校正方法,然而实际应用中,当存在gross corruptions(污染,遮挡)时,PCA不能很好的抓住数据的真实子空间结构,因此效果比较差,特别是遮挡幅值较大时,效果更差。
3 RPCA
RPCA正是为了处理PCA的遮挡等问题而提出来的。
1)能够很好的处理稀疏噪声问题,但是他是一种无监督方法,无法利用标签信息来增加识别率。
2)不能处理新样本,即使能够处理新样本,每来一个新样本,所有训练样本都需要被重新计算,很耗时间了吧~
RPCA的一种处理新样本的方法是,根据训练样本得到的子空间矩阵Y=U∑V’,得到投影矩阵U来处理新样本;不过这有个缺点就是这个投影矩阵并不能很好的处理原始训练样本矩阵X,证明:主分量为UU*X,误差E=X-UU*X,此时这个误差E并不是稀疏的。
3)核约束的优点:能够发现数据类间的低秩结构(结构信息),而且其实也可以用来抓住误差的低秩结构。
4、图嵌入方法,PCA,LDA,NMF,MFA,MNGE,PNGE等
1)训练集有遮挡情况下,效果不好。
优点:(1)他们都是基于流行内在几何结构的线性算法,更能体现现实数据的分布
(2)他们都是非参数的算法,使用简单。而且只要求采样数据所在的低维流行在局部是线性的,除此之外不需要对流行有额外的假设。
(3) 都可视为特征值分解问题,有全局最优解。
缺点:并不能处理新样本。
虽然流行是一种非欧式几何空间,不满足传统意义下的全局线性结构,但是在局部意义下,可获得近似的全局线性结构。
尽管LPP只能保证局部分布的样本在特征空间中仍然是局部分布的,并不能保证原始空间中距离较远的样本在特征空间中仍然距离较远。由于存在噪声、表情、姿态等的影响,原始样本空间中属于同一个人的两个样本可能比不同人的样本距离更远,而继续在低维特征空间中保留这种关系是不合理的。
SPP:由于人脸图像背景复杂性,SPP重构的样本可能并不是同一类的。
(2) 加上了重构因子和为1的约束后,重构向量具有旋转、平移和尺度不变性。
图的构造包括建立连接边和对相应的边赋予权重
样本之间存在流行,特征之间也可能存在流行:特征样例之间存在对偶性,可认为特征也是由低维流行上的概率分布采样生成,而该低维流行嵌入在高维环绕空间中。根据局部不变假设,如果两个特征在数据分布的内在几何流行上彼此接近,则他们的嵌入表征也应该相互接近。
图正则化约束可以防止迁移学习中领域几何结构破坏而导致的负迁移。
给定足够的数据,我们期望每个数据点和他的邻域位于流行的同一个局部线性块上。这种局部几何特征即:能够利用近邻样本很好的很好的重构每一个数据。
LLE的目的是最小化线性重构误差,但是他的线性重构仅仅与K个最近邻有关,故LLE的效果与选取的k近邻有关,因此我们说LLE得到的图并不是最优的。
5、线性回归方法 MSE
1)类标貌似没有中心化。但是文献【Cai, X., Ding, C., Nie, F. and Huang, H. (2013) On the equivalent of low-rank linear regressions and linear discriminant analysis based regressions. In: Proceedings of ACM SIGKDD Int. Conf. Knowl. Discovery Data Mining. 1124-1132.】提到只要训练样本矩阵X是中心化的,那么类标矩阵Y是否中心化是等价的。
2)基于像素误差的模型,而且假设像素之间的误差的独立的。这种方法不适于遮挡情况下,因为遮挡数据集的误差是空域相关的。
3) MSE严重的依赖于高斯假设分布,而且传统的MSE子空间聚类方法对于非高斯噪声分布特别敏感。【可以用MEE(minimum error entropy)来改进)
4)MSE是凸的而且可微分,具有解析解。MSE测量的是误差信号的能量,能够被正交矩阵(傅里叶变换,离散余弦变换,正交小波变换和主分量分析)保持。
5)视觉感知图像质量的不一致性。因为MSE仅仅是一个像素操作,忽略了邻域的结构信息,而且他也忽略了噪声信号和原始图像之间的关系。
6、LDA
(1)ratio-of-trace还是trace-of-ratio问题,一般而言trace-of-ratio等价于线性回归的方法。
(2)在满秩情况下,多线性回归等价于LDA,(对于min||Y-XAB||,当B满秩时)
Ye则证明,当降维维数为k-1以及rank(Sb)+rank(Sw) = rank(St)时才等价。
7.SVD
(1) 可以用于提取主分量
(2) SVD得到的基容易受到面部表情等的影响
(3) 每个基含有不同的鉴别信息和重构信息。
8.SLDA
(1) 发现投影后的特征 进行特征范数归一化后结果还不错的样子
9.NMF(非负矩阵分解)
NMF对原始矩阵的重构误差最小化,且原始数据的统计信息也可以得到保持。
缺点:(1)NMF学习的基底不完全是部分的,特别是有遮挡或极端光照变化的情况下。例如基底可能呈现的是一个完整的人脸,而不是光照、遮挡等部分区域;
(2)NMF假设重构误差服从高斯分布,但是极端光照变化或有遮挡物情况下,并不满足此假设。这种情况下NMF获取的基底表示能力变差,重构图和基底图中都可能出现明显的遮挡块,这严重影响基底的表示能力;
(3)基本的NMF算法没有考虑人脸数据的几何结构。研究证实,人脸图像处于高维空间中的线性子空间或流行上,而非整个高维空间。因此在利用非负矩阵分解获取低维非负表示时有必要考虑这种几何结构,在极端光照变化、噪声或遮挡物情况下,如何刻画这种几何结构是问题的关键!!!
图正则化NMF的一个重要缺陷是可能产生平凡解,
10.2DPCA
2DPCA直接提取二维图像矩阵特征,最大化特征协方差矩阵的迹来保护总体方差,但是其并不能提取对人脸识别非常重要的局部成分。
11. 低秩Low-Rank
LatLRR得到的图具有很强的鉴别能力以及自适应的近邻。
LatLRR的缺陷:(1)不能对特征进行降维,不适用于特征抽取;(2)需要单独的学习两个低秩矩阵,导致不能学习到一个全局的最优解;(3)LatLRR是一种无监督的方法,不能用于有监督场景。
LRR(低秩表示)假设一个数据矩阵严格的分布在一些独立的子空间。缺陷:当训练样本不足时,效果较差。
特别的,相比于从图像空间中学习低秩结构,在有监督的子空间学习中,这个严格的低秩结构可以由独立的类标子空间学习。
如果高维上的数据分布在各个独立的线性子空间,此时LRR能够很好的抓住数据的结构,否则失效。 例如,人脸一般分布在一个非线性的低维流行上。
对于低秩表示模型: min |Z|_* + |Z|_1 + |E|_1 s.t. X=XZ+E,对于重构矩阵Z添加低秩和稀疏约束的目的是为了抓住数据的全局和局部结构。
12. 迁移学习
迁移学习放宽了训练数据和测试数据服从独立同分布这一假设,使得参与学习的领域或任务可以服从不同的边缘概率分布或条件概率分布。
主要思想:从相关的辅助领域中迁移标注数据或知识结构、完成或改进目标领域或任务的学习效果。
非平稳环境中,不同数据领域不再服从独立同分布假设,使得经典学习理论不再成立,给异构数据分析挖掘带来了理论上的风险。
迁移学习中存在机具挑战性的负迁移问题,即难以判定迁移学习模型在什么条件下会导致性能下降而非提升。
但凡经典学习不能取得很好学习效果时均可能是因为训练数据和测试数据之间存在概率分布漂移,而迁移学习正好是经典学习在非平稳环境下的推广。
对于情感分类而言,不同领域的不同用户倾向于用不同的情感词来表达不同的态度,这些情感词不发生重叠,存在领域独享词,且词汇在不同领域出现的频率显著不同,这样会导致领域间概率分布失配。
迁移学习的研究工作大多基于以下几种假设:
(1)假设不同的领域间存在可以共享的隐含结构或相关实例。
(2)不同的任务存在可以共享的子任务或稀疏表征等
存在问题:
(1)负迁移问题:指辅助领域任务对目标领域任务有负面效果。主要解决方法是减少在领域间迁移的知识结构,比如共享模型的先验概率,而不共享模型参数或似然函数。
(2)欠适配问题:指跨领域的概率分布失配问题未能充分修正。没有对联合概率分布进行适配,所采用的概率分布相似性度量准则过于简单、或对概率分布的抽象拟合能力不足等;
(3)欠拟合问题,指学习模型未能充分刻画概率分布的重要结构。概率分布失陪方法能有效工作的前提是能对概率分布自身的统计特性进行深度拟合。
13.IQA
1)IQA模型式非线性的,并没有可微分性和凸性。
3)并不是一个有价值的距离度量方法,而且往往具有比MSE更高的计算代价。
14.SSIM
1)人眼视觉系统对于抓取结构信息具有很好的适应性。对于参考图像和降质图像,SSIM从亮度、对比度和结构三个方面来估计降质图像的视觉质量。