数据分析系列:数据挖掘之客户细分
数据挖掘是指从大量的不完全,有噪音,模糊的,随机的数据中提取出隐含在其中的有用的信息和知识的过程。金融行业的分析方案旨在帮助银行和保险也客户进行交叉销售来增加销售收入,对客户进行细分和细致的行为描述来有效的挽回有价值的客户,提高市场活动的相应效果,降低市场推广成本,达到有效增加客户数量的母的等。
客户细分
使客户收益最大化的同时最大化的降低风险的一种方法
客户细分是指按照一定的标准将企业的现有客户划分为不同的客户群。这是客户关系管理 的核心之一。
主要是指企业在明确的战略,业务,市场的条件下,根据客户的价值,需求和偏好的综合因素对客户进行分类,分属于统一客户群的消费者具备一定程度上的相似性,细分的依据主要是:
-
客户需求不同。影响消费者购买决策因素的差异后决定了消费者的需求,导致了不同的消费行为。
-
消费档次假说。消费者收入水平的提高,消费量会随着增加,但是这个增加是称区间台阶式的,一旦消费者达到莫衷消费层次后,消费的趋势将遍的非常平缓。
-
企业的资源是有限的,必须有选择地分配资源。为了充分发挥资源的最大效用,企业必须区分不同的客户群,对不同的客户制定不同的服务策略,集中资源服务好重点客户。
-
稳定性。有效的客户细分还必须具有相对的稳定性,足以实现在此基础上进行的实际应用,如果变化太快,应用方案还未来得及实施,群体就已面目全非,这样的细分方法就显得毫无意义。
客户细分的模型
对客户进行细分的方法中,除了传统的按照客户基本属性进行分类的方法以外,还有其他多种客户细分模 型,如基于客户价值贡献度的细分模型、基于不同需求偏好的细分模型和基于消费行为的细分模型。基于消费者消费行为的客户细分模型研究,主要是以消费者的购买频率、消费金额等为细分变量,如 RFM 模型和客户价值矩阵模型。
1RFM模型:RFM 细分模型是根据消费者消费的间隔、频率和金额三个变量来识别重点客户的细分模型。
R-Recency 指客户上次消费行为发生至今的间隔,间隔越短则 R 越大;F—Frequency 指在一段时期内消费行为的频率;M—Monetary 指在某一时期内消费的金额。研究发现,R 值越大、F 值越大的客户越有可能与企业达成新的交易,M 越大的客户越有可能再次响应企业的产品和服务。
2客户价值矩阵模型:用购买次数 F 和平均购买额 A 构成客户价值矩阵,
在客户价值矩阵中,确定购买次数 F 和平均购买额 A 的基准是各自的平均值,一旦确定了坐标轴的划分,客户就被定位在客户价值矩阵的某一象限区间内。依据客户购买次数的高低和平均购买额的多少,客户价值矩阵将客户划分成四种类型,即乐于消费型客户、优质型客户、经常客户和不确定客户。
客户细分并没有统一的模式,企业往往根据自身的需要进行客户细分,研究目的不同,用于客户细分的方法也不同。总的来讲,客户细分的方法主要有四类,一、基于客户统计学特征的客户细分;二、基于客户行为的客户细分;三、基于客户生命周期的客户细分;四、基于客户价值相关指标的客户细分。
客户细分的基本流程
-
理解业务需求
客户细分可根据许多不同条件而进行,当条件变得很复杂时,数据挖掘技术就出现了
-
选择市场细分变量
变量选择应该建立在理解业务需求的基础之上,以需求为前提,在消费者行为和心理的基础上,根据需求选择变量
-
所需数据及其预处理
-
选择细分技术
通常采用聚类技术来进行客户细分。常用的聚类算法有 K-means、两步聚类、Kohonen网络等,可以根据不同的数据情况和需要选择不同聚类算法来进行客户细分
-
评估结果
细分的结果应该通过下面几条规则来测试:与业务目标相关的程度;可理解性和是否容易特征化;基数是否足够大,以便保证一个特别的宣传活动;是否容易开发独特的宣传活动等
-
应用细分模型
根据客户细分的结果,市场部门制定合适的营销活动,进行有针对性的营销
客户细分方法
聚类分析方法:
-
K-Means 聚类法。使用者需要首先确定数据分为 K 群,该方法会自动确定 K 个群的中心位置,继而计算每条记录距离这 K 个中心位置的距离,按照距离最近的原则把各个记录都加入到 K 个群,重新计算 K 个群的中心位置,再次计算每条记录距离这 K 个中心位置的距离,并把所有记录重新归类,再次调整中心位置,依次类推……,当达到一定标准时,结束上述步骤。这种方法运算速度快,适合于大数据量。
-
两步聚类法:这种方法首先需要确定一个最大群数(比如说 n),并把数据按照一定的规则分为 n 个群,这是该方法的第一步。接着按照一定的规则把 n 个群中最接近的群进行归并,当达到一定的标准时,这种归并停止,这就是该种方法最终确定的聚类群数(比如说 m),这是第二步。两步聚类法的一个显著优点是可以不指定聚类群数,它可以根据据结构本身自动确定应该把数据分为多少群。
-
Kohonen 网络聚类法:是运用神经网络的方法对数据进行细分的数据挖掘方法。为了提升客户的全面经验,许多金融机构将数据挖掘应用于客户细分在客户个人属性以及产品之间提取直观的联系。从这些现存的客户以及潜在客户中得到的客户特征经验的知识进而可以用于配合市场营销工作来增加交叉销售的机会,提高投资回报率(ROI) (Peacock,1998)。这使得金融机构可以提供特定的产品与服务来满足客户的需要。数据挖掘中典型的细分应用要么是使用有监督学习方法,要么是使用非监督学习方法来进行(Chung 和 Gray,1999)。对于前者,数据挖掘模型学习客户的行为特征与已经确定的我们感兴趣的输出变量之间的关系。例如,客户评价模型,将客户分为不同的等级,并得出每个等级的特征。另一方面,非监督学习方法基于客户的输入属性产生不同的类别,而且不需要设定我们感兴趣的输出变量。每个类别的成员享有相似的特征,并且与其它的类别之间的特征是截然不同的。
客户细分实例
假设z银行拥有以下的数据
1.客户号;2.储蓄账户余额;3.活期账户余额;4.投资账户余额;5.日均交易次数;6.信用卡支付模式;7.是否有抵押贷款;8.是否有赊账额度;9.客户年龄;10.客户性别;11.客户婚姻状况;12.客户家庭情况(孩子数);13.客户年收入;14.客户是否拥有一辆以上小汽车;15.客户流失状态。
假设 Z 银行希望建立更为有效的市场营销战略来给持有高价值投资组合的客户推销其金融产品。为了做到这些,Z 银行使用细分模型特征化了其客户,并且依赖客户属性分割这些客户为截然不同的类别。其后,自然可以利用这些从客户中得到的特征剖面来定制其市场营销战略来给其潜在的客户提供更多目标性的信息。
此外,假设 Z 银行使用监督学习以及非监督学习建模技术来生成客户的特征。这里我们使用SPSS 公司的数据挖掘软件 Clementine。
对于监督学习模型,基于上面涉及到的十三个变量基础进行细分。目标变量是由输入变量-投资账户余额,直接生成的多分类变量。关于投资账户余额的分布可以由直方图节点来决定如何适当的将每个客户分类到三个箱柜中:高、中和低投资组合价值关于投资账户余额的分布与归箱也显示在上图中。关于投资账户余额的归箱组成了我们感兴趣的投资价值目标变量。
进而可以构建 Logistic 回归模型来生成基于不同单个客户投资价值的不同分类的特征属性
上图是Logistic 回归模型的结果。进一步的结果表明,在预测每个客户的投资价值的预测模型中统计上显著的变量有储蓄账户余额和活期账户余额。进而,高价值投资组合客户的特征就由这些变量来决定。
非监督学习细分模型是基于十四个变量来做出的。在这种情形下,不需要设定目标变量。对于非监督学习细分,通常可以使用三种数据挖掘算法,也就是,两步聚类、Kohonen 网络以及 K-means 聚类。
这里使用了两步聚类:
上图显示了使用两步聚类法生成的五个类别的聚类模型。关于每一类的信息也列了出来。例如,第 4 类包含 278 个客户,它描述了在这个类别中大部分的客户是男性且大部分无抵押贷款的客户。另一方面,第 2 类描述了大多数为已婚女性且拥有赊账额度的客户.
更进一步的数据探索是建立在两步聚类结果上,通过利用我们所关心的变量的直方图或是分布图等图形化展示手段来比较五个类别的结果。
上图显示了关于五个类别中流失状态以及流失率的比较。我们可以看到,第 2 类中拥有大多数的主动以及被动流失的客户。同样,第 3 类则是相当的混合了现存客户以及主动流失的客户。此外,第 4 类中具有最大的现存客户。对于其他的分类输入变量来讲可以绘出相似的分布图。
最后,关于投资账户的直方图也可以根据五个类别分别绘出。我们可以看到,第 1 类包含了相对其它几类更多的低投资账户的客户。另一方面,第 3 类则是由持有高价值投资账户的客户组成。如此,如果 Z 银行能够促销新产品,第 3 类的客户可能是更为有希望的目标群体,能够生成更好的市场营销结果。利用这些知识,Z 银行现在能够设计适当的银行产品来满足那些不同的客户群体。