泰坦尼克号 预处理
参考:https://www.kaggle.com/startupsci/titanic-data-science-solutions
哪些特征是分类特征:
哪些特征是数字类型的:
哪些特征是混合类型
哪些特征可能包含错误或者手误:
哪些特征包含空格,null 或空值
各个特征的数据类型是什么
数字类型的特征的分布式怎样的
分类特征的分布
基于以上分析的假设:
关联性
确定性:
修改
创造:
我们还可以加入自己的猜想:
检验相关性:
类似这样
在这个阶段,我们只能在没有任何空值的特性上这样做。
可视化数据来分析
未完待续