最后的答辩之银行电话营销响应模型
最近在做答辩,每天做一点,记录在博客里,权当是知识的回顾。
题目要求:
根据以往的电话营销的数据,对用户进行分析,提取有价值的信息,并预测是否响应电话营销。
包含两份数据集
1.bank-additional-full.csv,包含所有数据集,并按日期进行排序,从2008年5月到2010年11月。
2.bank-additional.csv,包含10%的样本,这些样本是随机从bank-additional-full.csv中抽取的。
这份小数据集是用来测试对计算精度要求更高的机器学习算法。
二分类目标是预测客户是否将订阅银行期限存款(变量y)。
数据集包括20个变量(x)和一个目标变量(y)
变量信息:
数值型变量
age:年龄;
duration:最后一次通话时间,单位为秒(数字)。**注释:这个变量高度影响目标变量,用于基准目的,应该被舍弃**;
campaign:此次营销活动联系某一特定客户的次数;(包括上一次联系)
previous :此次营销活动之前联系某一客户的次数;
pdays:距离上次联系某一客户经过的天数(999表示之前未联系客户);
emp.var.rate:就业变化率 - 季度指标(数字)
cons.price.idx:消费者价格指数 - 月度指标(数字)
cons.conf.idx:消费者信息指数-月度指标(数字)
euribor3m:euribor 3月费率 - 每日指标(数字)
nr.employed:员工人数 - 季度指标(数字)
分类型变量
job:工作('行政','蓝领','企业家','女佣','管理','退休','个体经营','服务',' ,“技术员”,“失业”,“未知”);
matital:婚姻状况(分类:'离婚','已婚','单身','未知';注:“离婚”是指离婚或丧偶)
education:教育('basic.4y', 'basic.6y', 'basic.9y',‘中学’,‘不识字’,‘专科’,‘学士学位’。‘未知’)
default:是否存在信用违约(‘是’,‘否’,‘未知’)
housing:是否存在住房贷款(‘是’,‘否’,‘未知’)
loan:是否有个人的贷款(‘是’,‘否’,‘未知’)
contact:联系的方式(‘固定电话’,‘移动电话’)
month:上次联系是哪个月(一月到十二月)
day of week:上次联系是星期几
poutcome:上次营销活动的结果(‘成功’,‘失败’,‘未知’)
数据描述分析
(一)年龄
年龄为数值型变量,其基本统计特征如下表:
年龄分布的直方图为:
可以看出,银行的客户中年龄在20岁以下或60岁以上的只占一小部分,年龄分布集中于30岁至50岁的中青年阶段,平均年龄为40.2岁。这一年龄段的人们基本上事业有成,收入稳定,对产品合同的签订可能会产生一定影响。
(二)最后一次通话时间(秒)
从图可以看出,成功签订的合同的客户的通话时间明显高于未成功签订合同的客户,说明该变量可能对应变量存在显著影响。
(三)此次营销活动联系某一特定客户的次数
(四)此次营销活动之前联系某一客户的次数
(五)距离上次联系某一客户经过的天数
三、四、五三个变量反映联系某一客户的频率,其对影响结果未知,可能有些客户因为联系次数太多感觉被打扰从而拒绝签订合同,而另一些客户可能被说服。
(六)工作
在银行的客户中。行政人员、蓝领、技师分别位于前三位;不考虑工作未知的情况,学生、女佣和失业的人数别较少。
上表是不同职业的人群对于电话营销的接受情况,可以看出,学生和退休人员虽然在银行中人数较少,但对于存款的接受率分别达到了31.4%和25.2%,相对的,工作为蓝领的客户人数虽然较多,但其合同的成功签订率只有6.9%。
造成差异的原因可以从不同工作类别的人群的特别推断。退休人员的消费倾向不足,主要为了老年的生活而采用储蓄的方式管理现有的财产。对学生而言,这一群体几乎没有其他的可投资项目,因此也更多的选择了储蓄存款管理资金。蓝领工人的收入较低,为了维持基本的生活需要,可能没有更多的财产需要银行保管。
(七)婚姻状况
已婚和离异的客户合同的签订率低于单身的客户,可能是由于后者更多的为今后的生活考虑,增加存款,尽可能的节约消费。已婚的人q群在赡养老人、照顾孩子方面的开销会比较大,可能暂时没有闲置资金。
(八)受教育情况
不考虑教育情况未知以及不识字这一人数较少的情形,随着受教育程度的增加,合同的签订率是逐渐增加的,说明随着教育水平的深入,人们储蓄的意识逐渐增强。
(九)是否存在信用卡违约
(十)是否有个人贷款
(十一)联系的方式
以固定电话的联系的成功率明显高于以移动电话的联系的成功率。
(十二)上次联系是在星期几
在周二签订的合同的成功率高于其他的工作日,周一合同签订的成功率最低。
(十三)上次联系的是哪个月
一年中的三月、九月、十月、十二月合同签订的成功率都达到了40%以上,月份对最终结果可能存在较为显著的影响。与某一具体日期相比,月份更多的反映季节变化、消费习惯变化等信息,对结果的影响也更为明显。
(十四)此前营销活动的结果
可以看出,之前的营销结果对此次营销活动的影响较大,之前成功营销的客户本次成功率达到了64%,远高于之前未成功或其他结果的客户。
(十五)是否有住房贷款
数据预处理(以marital变量为例)
我们可以看到unkonwn的这一变量的index(该分类下响应率的值与总体响应率的比值*100)值与divorced变量最接近,故用divorced来替换unknown的值。
对于数值型变量pdays,我们看到有将近90%的缺失值,故对缺失值生成哑变量。
建立模型
(一)为了测试模型的效果,将样本数据分为测试集test和训练集train,训练数据集占70%,测试数据集占30%,以训练集的数据建立广义线性模型,已测试集的数据检验预测结果。
筛选变量
相关分析
通过相关分析表可以看出,poutcome和previous这一变量的相关系数高达0.99,通过比较它们与y相关性的强弱,选择舍弃previous这一变量。emp.var.rate和nr.employed的相关系数为0.94,通过比较它们与y相关性的强弱,选择舍弃emp.var.rate这一变量。nr.employed和euribor3m的相关系数为0.93,通过比较它们与y相关性的强弱,选择舍弃euribor3m这一变量。
开始建模
proc logistic data=train plots=all; class m1_job m1_marital m1_education m1_default m1_housing m1_loan contact month day_of_week poutcome /param=reference; model y(event='1')= age duration campaign m1_pdays cons_price_idx cons_conf_idx nr_employed m1_job m1_marital m1_education m1_default m1_housing m1_loan contact month day_of_week poutcome /selection=stepwise; run;
在0.0001的显著性水平下,筛选出来的变量有通话持续时间(dutation)、员工人数(nr_employed)、月份(month)、之前营销活动的结果(poutcome)、消费者价格指数(cons_price_idx)、是否存在信用违约(default)。
模型分析
ROC曲线:
Lift曲线
预测效果
(一)婚姻状况
“divorced”为对照变量,当married与single同时为0时,表示离异状态;当married为1,single为0时,表示已婚状态;当
marrried为0,single为1时,表示单身状态。
从系数的估计值看,已婚状态对营销结果为1(即成功)的正相关程度更小,符合之前描述分析的结论。
(二)受教育情况
接受高等教育的客户对营销成功有促进作用。这类客户的储蓄意识可能较其他客户稍强。
(三)住房贷款、个人贷款
拥有住房贷款和个人贷款的客户对存款合同推销成功有不利影响,参数估计值均为负。可能的原因是是这些客户更多的是将资金用于还贷而非储蓄存款。
(四)联系方式
当客户是以固定电话接听时,对营销成功有一定的不利影响,参数估计值为-0.27。
(五)月份
在影响显著的月份中,一月、五月、十一月对成功营销存在负面影响,三月、九月、十月对成功营销有促进作用。
(六)通话持续时间
一般而言,通话时间越长,产品介绍的越详细,越有可能被客户接受。回归结果也符合这一常理。
(七)之前营销活动的结果
之前营销活动结果变量(poutcome)为success的参数估计值为0.8262,对营销成功有促进作用。结合之前数据描述表可以看出,之前营销成功此次再次成功的比例达到了64%,说明之前成功营销对此次能够顺利推销产品有重要影响。
结论及建议
结合以上分析,可以得出下面几点结论,对商业银行提出相应建议
(一)建立激励客户忠诚和约束客户流失的机制
之前的成功营销会对今后银行营销的成功起到显著的促进作用,因此,银行应采取措施提高客户忠诚度。所谓客户忠诚,是指客户一再重复购买,而不是偶尔重复购买同一服务的行为。忠诚的客户是银行最基本的、可以信赖客户。这些客户可能因为对银行的信任、偏爱而购买银行的服务,在需要时会增加购买量,因此,这些客户会为银行带来更大的利润。银行应防止忠诚的客户流失。具体的措施包括:
第一,加强银行内部管理,为维护客户关系提供坚实保障。寻找更优秀的员工作为客户经理,加强对员工的培训,建立有效的激励制度激发员工的工作热情。
第二,提高服务的独特性和不可替代性。让客户意识到其享受的服务是独一无二的,量身定做的,有效降低竞争对手对客户的诱惑,增加客户对银行的依赖性。
第三,以银行自身的忠诚交换客户的忠诚。忠诚是银行与客户双向的、互动的。银行应当处于困境中的客户雪中送炭,培养未来可能的忠诚客户。
(二)建立客户分类信息系统
不同职业、婚姻状况、受教育情况、资金状况的客户对电话营销的成功率都有一定的影响,银行可以建立相关的数据库,将银行客户的数据进行分类管理,这样在进行电话营销时会更有针对性,提高营销的成功率。
(三)注意电话营销的技巧
虽然目前电话营销的应用在银行业、保险业比较普遍,但居民对电话营销的反感心理仍比较重,这极大的降低了电话营销的成功率。从上述分析可知,通话持续时间、联系的方式、日期都对结果有一定的影响,可见,电话营销的技巧是十分重要的。为避免接听电话者迅速挂断电话,需要销售员有较高的沟通能力与技巧。同时应注意控制通话时间,过长的通话会让接听者感觉厌烦,时间过短则无法起到推销产品的作用。