随机森林 - 寿险客户信息分析
注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码
目标:
个险客户特征分析
建模过程:
输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信息, 包括储蓄险, 终身险, 定期险, 投资险等.
算法:
首先使用决策树作粗略的预测检验输入数据的有效性,使用随机森林输出重要的特征
决策树的优点在于直观, 容易实现, 并且能同时处理离散型和连续型变量, 过程中添加变量的改动也不大. 从数据中抽取了一年的客户信息作为训练集, 建立决策树来预测客户选择的保险产品类别.
结果分析:
第一次运行命中率只有40%, 分析其混淆矩阵:
可以看出, 决策树在最后一个分类的效果很差, 可以说没有效果,在第三第四个分类上区分度也不高.
最后一个分类是投资险, 说明现有客户特征并不能满足投资险种分类的区别, 需要添加特征值
第三,四个分类其实都是定期险, 一种是缴费年限定期, 另一种是被保年龄定期, 本质上区别不大,可以合并起来
暂时过滤掉投资险客户信息, 合并定期险客户信息后, 重运行的混淆矩阵
可以看到分类已经有所改进了, 命中率可以达到60%
二三四分类的区分度看上去已经不错了, 唯有第一类储蓄险种区分度不高, 把这部分客户信息过滤掉之后, 就可以达到不错的命中率了.
随机森林相比决策树的优点除了准确率高之外, 更重要的是它能够给出哪些feature比较重要! 而这正好就是市场部分所需要的东西.
最终结果显示, 在过去的10年中, 客户的婚姻状态/年龄/身高体重对客户的保险产品选择贡献度最高.
模型的结果最终会在Tableau上显示:
如特征值贡献度走势
重要特征分类下的保单数统计