最后的答辩之银行电话营销响应模型

最近在做答辩,每天做一点,记录在博客里,权当是知识的回顾。

题目要求:

根据以往的电话营销的数据,对用户进行分析,提取有价值的信息,并预测是否响应电话营销。

包含两份数据集

1.bank-additional-full.csv,包含所有数据集,并按日期进行排序,从2008年5月到2010年11月。

2.bank-additional.csv,包含10%的样本,这些样本是随机从bank-additional-full.csv中抽取的。

   这份小数据集是用来测试对计算精度要求更高的机器学习算法。

   二分类目标是预测客户是否将订阅银行期限存款(变量y)。

数据集包括20个变量(x)和一个目标变量(y)

变量信息:

数值型变量

age:年龄;

duration:最后一次通话时间,单位为秒(数字)。**注释:这个变量高度影响目标变量,用于基准目的,应该被舍弃**;

campaign:此次营销活动联系某一特定客户的次数;(包括上一次联系)

previous  :此次营销活动之前联系某一客户的次数;

pdays:距离上次联系某一客户经过的天数(999表示之前未联系客户);

emp.var.rate:就业变化率 - 季度指标(数字)

cons.price.idx:消费者价格指数 - 月度指标(数字)

cons.conf.idx:消费者信息指数-月度指标(数字)

euribor3m:euribor 3月费率 - 每日指标(数字)

nr.employed:员工人数 - 季度指标(数字)

分类型变量

job:工作('行政','蓝领','企业家','女佣','管理','退休','个体经营','服务',' ,“技术员”,“失业”,“未知”);

matital:婚姻状况(分类:'离婚','已婚','单身','未知';注:“离婚”是指离婚或丧偶)

education:教育('basic.4y', 'basic.6y', 'basic.9y',‘中学’,‘不识字’,‘专科’,‘学士学位’。‘未知’)

default:是否存在信用违约(‘是’,‘否’,‘未知’)

housing:是否存在住房贷款(‘是’,‘否’,‘未知’)

loan:是否有个人的贷款(‘是’,‘否’,‘未知’)

contact:联系的方式(‘固定电话’,‘移动电话’)

month:上次联系是哪个月(一月到十二月)

day of week:上次联系是星期几

poutcome:上次营销活动的结果(‘成功’,‘失败’,‘未知’)

数据描述分析

(一)年龄

年龄为数值型变量,其基本统计特征如下表:

年龄分布的直方图为:

               

 

可以看出,银行的客户中年龄在20岁以下或60岁以上的只占一小部分,年龄分布集中于30岁至50岁的中青年阶段,平均年龄为40.2岁。这一年龄段的人们基本上事业有成,收入稳定,对产品合同的签订可能会产生一定影响。

(二)最后一次通话时间(秒)

        

从图可以看出,成功签订的合同的客户的通话时间明显高于未成功签订合同的客户,说明该变量可能对应变量存在显著影响。

(三)此次营销活动联系某一特定客户的次数

(四)此次营销活动之前联系某一客户的次数

(五)距离上次联系某一客户经过的天数

三、四、五三个变量反映联系某一客户的频率,其对影响结果未知,可能有些客户因为联系次数太多感觉被打扰从而拒绝签订合同,而另一些客户可能被说服。

(六)工作

           

在银行的客户中。行政人员、蓝领、技师分别位于前三位;不考虑工作未知的情况,学生、女佣和失业的人数别较少。

          

  上表是不同职业的人群对于电话营销的接受情况,可以看出,学生和退休人员虽然在银行中人数较少,但对于存款的接受率分别达到了31.4%和25.2%,相对的,工作为蓝领的客户人数虽然较多,但其合同的成功签订率只有6.9%。

  造成差异的原因可以从不同工作类别的人群的特别推断。退休人员的消费倾向不足,主要为了老年的生活而采用储蓄的方式管理现有的财产。对学生而言,这一群体几乎没有其他的可投资项目,因此也更多的选择了储蓄存款管理资金。蓝领工人的收入较低,为了维持基本的生活需要,可能没有更多的财产需要银行保管。

(七)婚姻状况

  

  已婚和离异的客户合同的签订率低于单身的客户,可能是由于后者更多的为今后的生活考虑,增加存款,尽可能的节约消费。已婚的人q群在赡养老人、照顾孩子方面的开销会比较大,可能暂时没有闲置资金。

(八)受教育情况

  

  不考虑教育情况未知以及不识字这一人数较少的情形,随着受教育程度的增加,合同的签订率是逐渐增加的,说明随着教育水平的深入,人们储蓄的意识逐渐增强。

(九)是否存在信用卡违约  

  

(十)是否有个人贷款

  

(十一)联系的方式

      

  以固定电话的联系的成功率明显高于以移动电话的联系的成功率。  

(十二)上次联系是在星期几

  

  在周二签订的合同的成功率高于其他的工作日,周一合同签订的成功率最低。  

(十三)上次联系的是哪个月

  

  一年中的三月、九月、十月、十二月合同签订的成功率都达到了40%以上,月份对最终结果可能存在较为显著的影响。与某一具体日期相比,月份更多的反映季节变化、消费习惯变化等信息,对结果的影响也更为明显。

(十四)此前营销活动的结果

  

可以看出,之前的营销结果对此次营销活动的影响较大,之前成功营销的客户本次成功率达到了64%,远高于之前未成功或其他结果的客户。

(十五)是否有住房贷款

  

 

数据预处理(以marital变量为例)

  

  我们可以看到unkonwn的这一变量的index(该分类下响应率的值与总体响应率的比值*100)值与divorced变量最接近,故用divorced来替换unknown的值。

  对于数值型变量pdays,我们看到有将近90%的缺失值,故对缺失值生成哑变量。

建立模型

(一)为了测试模型的效果,将样本数据分为测试集test和训练集train,训练数据集占70%,测试数据集占30%,以训练集的数据建立广义线性模型,已测试集的数据检验预测结果。

筛选变量

相关分析

  通过相关分析表可以看出,poutcome和previous这一变量的相关系数高达0.99,通过比较它们与y相关性的强弱,选择舍弃previous这一变量。emp.var.ratenr.employed的相关系数为0.94,通过比较它们与y相关性的强弱,选择舍弃emp.var.rate这一变量。nr.employedeuribor3m的相关系数为0.93,通过比较它们与y相关性的强弱,选择舍弃euribor3m这一变量。

开始建模

 

proc logistic data=train
   plots=all;
   class m1_job m1_marital m1_education m1_default m1_housing m1_loan contact month day_of_week poutcome
         /param=reference;
   model y(event='1')=  age duration campaign m1_pdays cons_price_idx cons_conf_idx nr_employed
       m1_job m1_marital m1_education m1_default m1_housing m1_loan contact month day_of_week poutcome
       /selection=stepwise;
run;

   

  在0.0001的显著性水平下,筛选出来的变量有通话持续时间(dutation)、员工人数(nr_employed)、月份(month)、之前营销活动的结果(poutcome)、消费者价格指数(cons_price_idx)、是否存在信用违约(default)。

模型分析

ROC曲线:

  

Lift曲线

  

 

预测效果

(一)婚姻状况

  “divorced”为对照变量,当married与single同时为0时,表示离异状态;当married为1,single为0时,表示已婚状态;当
marrried为0,single为1时,表示单身状态。

  从系数的估计值看,已婚状态对营销结果为1(即成功)的正相关程度更小,符合之前描述分析的结论。

(二)受教育情况

  接受高等教育的客户对营销成功有促进作用。这类客户的储蓄意识可能较其他客户稍强。

(三)住房贷款、个人贷款

  拥有住房贷款和个人贷款的客户对存款合同推销成功有不利影响,参数估计值均为负。可能的原因是是这些客户更多的是将资金用于还贷而非储蓄存款。
(四)联系方式

  当客户是以固定电话接听时,对营销成功有一定的不利影响,参数估计值为-0.27。

(五)月份

  在影响显著的月份中,一月、五月、十一月对成功营销存在负面影响,三月、九月、十月对成功营销有促进作用。

(六)通话持续时间

  一般而言,通话时间越长,产品介绍的越详细,越有可能被客户接受。回归结果也符合这一常理。

(七)之前营销活动的结果

  之前营销活动结果变量(poutcome)为success的参数估计值为0.8262,对营销成功有促进作用。结合之前数据描述表可以看出,之前营销成功此次再次成功的比例达到了64%,说明之前成功营销对此次能够顺利推销产品有重要影响。

 结论及建议

  结合以上分析,可以得出下面几点结论,对商业银行提出相应建议

(一)建立激励客户忠诚和约束客户流失的机制
  之前的成功营销会对今后银行营销的成功起到显著的促进作用,因此,银行应采取措施提高客户忠诚度。所谓客户忠诚,是指客户一再重复购买,而不是偶尔重复购买同一服务的行为。忠诚的客户是银行最基本的、可以信赖客户。这些客户可能因为对银行的信任、偏爱而购买银行的服务,在需要时会增加购买量,因此,这些客户会为银行带来更大的利润。银行应防止忠诚的客户流失。具体的措施包括:
  第一,加强银行内部管理,为维护客户关系提供坚实保障。寻找更优秀的员工作为客户经理,加强对员工的培训,建立有效的激励制度激发员工的工作热情。
  第二,提高服务的独特性和不可替代性。让客户意识到其享受的服务是独一无二的,量身定做的,有效降低竞争对手对客户的诱惑,增加客户对银行的依赖性。
  第三,以银行自身的忠诚交换客户的忠诚。忠诚是银行与客户双向的、互动的。银行应当处于困境中的客户雪中送炭,培养未来可能的忠诚客户。

 (二)建立客户分类信息系统
  不同职业、婚姻状况、受教育情况、资金状况的客户对电话营销的成功率都有一定的影响,银行可以建立相关的数据库,将银行客户的数据进行分类管理,这样在进行电话营销时会更有针对性,提高营销的成功率。

(三)注意电话营销的技巧
  虽然目前电话营销的应用在银行业、保险业比较普遍,但居民对电话营销的反感心理仍比较重,这极大的降低了电话营销的成功率。从上述分析可知,通话持续时间、联系的方式、日期都对结果有一定的影响,可见,电话营销的技巧是十分重要的。为避免接听电话者迅速挂断电话,需要销售员有较高的沟通能力与技巧。同时应注意控制通话时间,过长的通话会让接听者感觉厌烦,时间过短则无法起到推销产品的作用。

 

  

 

 

  

  

 

 

posted @ 2017-01-28 21:49  数学男  阅读(2177)  评论(1编辑  收藏  举报