数据挖掘训练

参考:https://www.cnblogs.com/zhizhan/p/5238908.html

titanic比赛

一些做比赛的要点:

这部分根据上面的几个点,做一点笔记

dataframe.info

然后通过可视化,分析各个特征对于最后的样本的效果

如头等舱获救比例更大

目前已经对各个阶段的图像有了一些了解,可以进行下一阶段了

通常遇到缺值的情况，我们会有几种常见的处理方式

如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了
如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中
如果缺值的样本适中，而该属性为连续值特征属性，有时候我们会考虑给定一个step(比如这里的age，我们可以考虑每隔2/3岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中。
有些情况下，缺失的值个数并不是特别多，那我们也可以试着根据已有的值，拟合一下数据，补充上。

先把缺失值之类的补上

把一些特征one-hot化

除了原本属性的特征外,还应有从原始属性中派生的新属性

对所有属性进行交叉相关分析...这是探索性分析的必要步骤之一

posted @ 2017-11-15 15:05 BigJelly 阅读(285) 评论(0) 收藏举报

刷新页面返回顶部