摘要:
特征 在计算机视觉领域,特征是为了完成某一特定任务需要的相关信息。比如,人脸检测中,我们需要在图像中提取特征来判断哪些区域是人脸、哪些区域不是人脸,人脸验证中,我们需要在两个人脸区域分别提取特征,来判断他们是不是同一个人,如下图所示,深度神经网络最终得到一个128维的特征用于识别等任务。 常用的特征 阅读全文
摘要:
666 阅读全文
摘要:
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一个分类模型。PCA和LDA有很多的相 阅读全文
摘要:
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。 特征与目标的相关性:这点比较显见,与目标相关性高的特征 阅读全文
摘要:
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 一、无量纲化 无量纲化使不同规格的数据转换到同一规格。 常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如 阅读全文
摘要:
1、清洗 去除脏的数据,比如某些商品的刷单数据,缺省值多的数据,异常数据,一般情况下直接舍弃。 结合业务情况 比如去除crawler抓取,spam,作弊等数据 采用异常点检测算法 偏差检测:聚类、最近邻等 基于统计的异常点检测:例如极差,四分位数间距,均差,标准差等。 基于距离的异常点检测:与大多数 阅读全文
摘要:
互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓库里搬砖,不断地数据清洗,再一个是分析业务不断地找特征。 特征的来源有两部分,(1)业务已经整理好的各种特征数据,我们去寻找适合我们问题需要的特征;(2)我们从业务特征中寻找高级的数据特征。 对于业务已经整理 阅读全文
摘要:
特征工程是机器学习中最耗时、最繁重的部分。非常重要。 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程的目的:将信息使用更加高效的编码方式(特征)表示,信息损失最小,原始数据中包含的规律仍然存在。这种新的编码方式要尽量减少原始数据中的不确定因素(噪声、异常数据、数据缺失等 阅读全文
摘要:
目录: 前言 1、高斯尺度空间GSS 2、高斯差分DOG 用DoG检测特征点 GSS尺度选择 3、图像金字塔建立 用前一个octave中的倒数第三幅图像生成下一octave中的第一幅图像 每层octave为什么生成s+3幅图像 4、高斯核性质在SIFT中的应用 5、除去不好的特征点 6、给特征点赋值 阅读全文