会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
善良的大猪猪
Powered by
博客园
博客园
|
首页
|
新随笔
|
联系
|
订阅
|
管理
2019年10月23日
特征预处理
摘要: 在前面我们分别讨论了特征工程中的特征选择与特征表达,本文我们来讨论特征预处理的相关问题。主要包括特征的归一化和标准化,异常特征样本清洗与样本数据不平衡问题的处理。 1. 特征的标准化和归一化 由于标准化和归一化这两个词经常混用,所以本文不再区别标准化和归一化,而通过具体的标准化和归一化方法来区别具体
阅读全文
posted @ 2019-10-23 22:43 善良的大猪猪
阅读(198)
评论(0)
推荐(0)
编辑
特征表达及处理
摘要: 转自:https://www.cnblogs.com/pinard/p/9061549.html 在特征选择中,讲到了特征选择的一些要点。本篇继续讨论特征工程,重点关注于特征表达部分,即如果对某一个特征的具体表现形式做处理。主要包括缺失值处理,特殊的特征处理比如时间和地理位置处理,离散特征的连续化和
阅读全文
posted @ 2019-10-23 22:13 善良的大猪猪
阅读(211)
评论(0)
推荐(0)
编辑
卡方检验
摘要: 卡方检验,或称x2检验,被誉为二十世纪科学技术所有分支中的20大发明之一,它的发明者卡尔·皮尔逊是一位历史上罕见的百科全书式的学者,研究领域涵盖了生物、历史、宗教、哲学、法律。之前做文本分类项目用过卡方值做特征选择(降维),后来听内部培训,另一个部门说他们有用卡方检验做异常用户的检测,于是就想把卡方
阅读全文
posted @ 2019-10-23 18:03 善良的大猪猪
阅读(3692)
评论(1)
推荐(0)
编辑
特征工程-特征选择
摘要: 转自:https://www.cnblogs.com/pinard/p/9032759.html 1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分
阅读全文
posted @ 2019-10-23 17:36 善良的大猪猪
阅读(263)
评论(0)
推荐(0)
编辑