201119西瓜书系列博客---11、特征选择与稀疏学习
201119西瓜书系列博客---11、特征选择与稀疏学习
一、总结
一句话总结:
11.1、子集搜索与评价;11.2、过滤式选择;11.3、包裹式选择
11.4、嵌入式选择与L1正则化;11.5、稀疏表示与字典学习;11.6、压缩感知
11.1 子集搜索与评价
子集搜索
特征子集评价
11.2 过滤式选择
Relief的相关统计量
11.3 包裹式选择
拉斯维加斯方法和蒙特卡罗方法:
11.4 嵌入式选择与L1正则化
11.5 稀疏表示与字典学习
稀疏性
11.6 压缩感知
1、【11.1、子集搜索与评价】 ?
【相关特征和无关特征】:一般情况下,我们可以用很多属性/特征描述一个示例,而对于特定的学习任务,我们会发现已知的所有属性中,有些特征是与该学习任务的目标无关的(【如预测一个人的收入,年龄/学历/专业可能很大程度上影响了收入,身高/体重这些外貌属性也有较小的可能性影响收入,但像是否是一个地地道道的吃货这种属性就八杆子打不着了】),称之为无关特征,对当前学习任务有用的属性称之为相关特征。
我们【只需要对学习任务有用的相关特征】,【特征选择便是从给定的特征集合中选出相关特征子集的过程】。
2、【11.1、子集搜索与评价】 显然,【特征选择的过程同样也实现了降维的效果】,也可以有效解决维数灾难的问题?
【降维】从一定程度上起到了【提炼优质低维属性和降噪的效果】
【特征选取】直接剔除那些与学习任务无关的属性【选取出最佳特征子集】
3、【11.2、过滤式选择】?
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。
【Relief(Relevant Features)】是一种著名的【过滤式特征选择方法】,该方法设计了一个【相关统计量】,其【每个分量分别对应于一个初始特征】,而【特征子集的重要性由子集中每个特征所对应的相关统计量分量之和决定】。
最终有两种方法选择特征:【指定一个阈值t,然后选择比t大的相关统计量分量所对应的特征即可】;【指定欲选取的特征个数k,然后选择相关统计量分量最大的k个特征】
4、【11.3、包裹式选择】 ?
与过滤式选择不同的是,【包裹式选择直接把最终将要使用的学习器的性能作为特征子集的评价准则】。其【目的就是为给定学习器选择最有利于其性能的特征子集】。
由于在每一轮迭代中都要训练学习器,因此在获得较好性能的同时也产生了较大的开销。【包裹式特征选择比过滤式特征选择计算开销要大得多】。
书中主要介绍的是一种经典的包裹式特征选择方法:【LVW,它在拉斯维加斯框架下使用随机策略来进行特征子集的搜索】,并以最终分类器的误差为特征子集评价准则。
5、【11.5、稀疏表示与字典学习】 稀疏性?
特征选择所考虑的问题是【特征具有稀疏性,即矩阵中的许多列与当前学习任务无关】,通过特征选择去除这些列,则学习器训练过程仅需在较小的矩阵上进行,学习任务的难度可能有所降低,涉及的计算和存储开销会减少,学得的模型可解释性也会提高。
另一种稀疏性可比喻为:【每个文档作为一个样本,每一列为字典中的字,则这样形成的矩阵中,每行有大量的零元素,且对于每个文档样本,每列零元素出现的位置往往很不相同】。
【当样本具有这样的稀疏表达形式时,对学习任务来说有不少的好处】。如线性支持向量机之所以能在文本数据上有很好的性能,恰是由于文本数据在使用上述的字频表示后具有高度的稀疏性,使大多数问题变得线性可分。
同时,【由于稀疏矩阵有许多高效的存储方法,故并不会造成存储上的巨大负担】。
6、【11.5、稀疏表示与字典学习】 字典学习?
于是,在一般的学习任务中,【我们也可以学习出这样一个字典,使得普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式】,简化任务,降低模型复杂度,我们称之为【稀疏编码(sparse coding)或字典学习(dictionary learning)】。
7、【11.6、压缩感知】?
压缩感知关注的是【通过欠采样信息来恢复全部信息】。
在实际问题中,为了方便传输和存储,我们一般将数字信息进行压缩,这样就有可能损失部分信息,【如何根据已有的信息来重构出全部信号,这便是压缩感知的来历】,压缩感知的前提是已知的信息具有稀疏表示。
二、11、特征选择与稀疏学习
转自或参考:西瓜书学习笔记——第十一章:特征选择与稀疏学习_Andrewings-CSDN博客
https://blog.csdn.net/shichensuyu/article/details/96279104