kaggle入门项目:Titanic存亡预测(三)数据可视化与统计分析
---恢复内容开始---
原kaggle比赛地址:https://www.kaggle.com/c/titanic
原kernel地址:A Data Science Framework: To Achieve 99% Accuracy
Step 4: Perform Exploratory Analysis with Statistics
使用描述性与图表分析数据,重点在于数据可视化,突出数据类别与不同feature的关联性
简单的groupby()获得不同feature对于生存率的影响
箱型图与柱状图绘制。
箱型图:plt.boxplot(),清晰表示数据的集中程度、离群点、中位数的位置。
柱状图plt.hist(),表示每个feature的不同值/分类的Survived数量。
seaborn 的barplot展示的是某feature的平均值,是数值变量的集中趋势
pointplot():数值变量的中心趋势估计,并使用误差线提供关于该估计的不确定性的一些指示。
violinplot():小提琴图显示数据分布及其概率密度。
因为性别因素对是否生还造成很大影响,因此我们将性别和其他feature联合绘图比较,看看是否有什么新发现:
然后是其他feature的比较图:
不同船舱等级和性别对生还率的影响:
不同年龄的连续生还曲线:
直方图比较性别、年龄、船舱等级:
微妙的看出低等仓与中等舱的男性大批死亡。头等舱的女性几乎全部生还。
pairplot()多变量图将所有的feature交叉绘图,隐含feature之间的关联性。
heatmap()热力图,反应feature之间的关联度: