用户贷款风险预测

竞赛地址：http://www.pkbigdata.com/common/cmpt/%E7%94%A8%E6%88%B7%E8%B4%B7%E6%AC%BE%E9%A3%8E%E9%99%A9%E9%A2%84%E6%B5%8B_%E8%B5%9B%E4%BD%93%E4%B8%8E%E6%95%B0%E6%8D%AE.html

数据探索：

比赛一共提供五张表，分别是：

　　训练数据：用户基本属性，银行流水记录，用户浏览行为，信用卡账单记录，放款时间，是否逾期

　　测试数据：用户基本属性，银行流水记录，用户浏览行为，信用卡账单记录，放款时间，用户ID 最后预测这些用户ID是否会逾期

一、用户基本属性

数据一共55596条，包括六个字段（ID，性别，职业，教育程度，婚姻状况，户口类型）可以试着探索各个属性与是否逾期的关系

五个属性的数量分布

fig,ax = plt.subplots(2,3)
fig.set_size_inches(20,12)
p = sns.color_palette()
ax[0][0].bar(训练基本属性表.iloc[:,1].value_counts().index,训练基本属性表.iloc[:,1].value_counts(),color = p[0])
ax[0][0].set_xlabel(训练基本属性表.iloc[:,1].value_counts().name)

ax[0][1].bar(训练基本属性表.iloc[:,2].value_counts().index,训练基本属性表.iloc[:,2].value_counts(),color = p[1])
ax[0][1].set_xlabel(训练基本属性表.iloc[:,2].value_counts().name)

ax[0][2].bar(训练基本属性表.iloc[:,3].value_counts().index,训练基本属性表.iloc[:,3].value_counts(),color = p[2])
ax[0][2].set_xlabel(训练基本属性表.iloc[:,3].value_counts().name)

ax[1][0].bar(训练基本属性表.iloc[:,4].value_counts().index,训练基本属性表.iloc[:,4].value_counts(),color = p[3])
ax[0][0].set_xlabel(训练基本属性表.iloc[:,1].value_counts().name)

ax[1][0].set_xlabel(训练基本属性表.iloc[:,4].value_counts().name)

ax[1][1].bar(训练基本属性表.iloc[:,5].value_counts().index,训练基本属性表.iloc[:,5].value_counts(),color = p[4])
ax[1][1].set_xlabel(训练基本属性表.iloc[:,5].value_counts().name