摘要:
通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题: 一、无量纲化 无量纲化使不同规格的数据转换到同一规格。 常见的无量纲化方法有标准化和区间缩放法。标准化的前提是特征值服从正态分布,标准化后,其转换成标准正态分布。区间缩放法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,例如 阅读全文
摘要:
1、清洗 去除脏的数据,比如某些商品的刷单数据,缺省值多的数据,异常数据,一般情况下直接舍弃。 结合业务情况 比如去除crawler抓取,spam,作弊等数据 采用异常点检测算法 偏差检测:聚类、最近邻等 基于统计的异常点检测:例如极差,四分位数间距,均差,标准差等。 基于距离的异常点检测:与大多数 阅读全文
摘要:
互联网公司里大部分复杂的模型都是极少数的数据科学家在做,大多数工程师们做的事情基本是在数据仓库里搬砖,不断地数据清洗,再一个是分析业务不断地找特征。 特征的来源有两部分,(1)业务已经整理好的各种特征数据,我们去寻找适合我们问题需要的特征;(2)我们从业务特征中寻找高级的数据特征。 对于业务已经整理 阅读全文
摘要:
特征工程是机器学习中最耗时、最繁重的部分。非常重要。 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 特征工程的目的:将信息使用更加高效的编码方式(特征)表示,信息损失最小,原始数据中包含的规律仍然存在。这种新的编码方式要尽量减少原始数据中的不确定因素(噪声、异常数据、数据缺失等 阅读全文
摘要:
目录: 前言 1、高斯尺度空间GSS 2、高斯差分DOG 用DoG检测特征点 GSS尺度选择 3、图像金字塔建立 用前一个octave中的倒数第三幅图像生成下一octave中的第一幅图像 每层octave为什么生成s+3幅图像 4、高斯核性质在SIFT中的应用 5、除去不好的特征点 6、给特征点赋值 阅读全文