泰坦尼克号 预处理

参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions

 

哪些特征是分类特征:

哪些特征是数字类型的:

哪些特征是混合类型

哪些特征可能包含错误或者手误:

哪些特征包含空格,null 或空值

 

各个特征的数据类型是什么

数字类型的特征的分布式怎样的

分类特征的分布

 

基于以上分析的假设:

关联性

 

确定性:

 修改

创造:

我们还可以加入自己的猜想:

 

 检验相关性:

类似这样

在这个阶段,我们只能在没有任何空值的特性上这样做。

 

 可视化数据来分析

 未完待续

 

posted @ 2018-05-08 21:38  迷茫的计算机呆  阅读(203)  评论(0编辑  收藏  举报