KDT#33 使用CRM的度量对客户进行分析
在进行客户关系管理(CRM)分析时,通常有三个客户行为分析值,分别是最近访问时间、访问频率和交易数量。最近访问时间指我们和客户最后一次接触的一些信息,包括最后访问时间或者最后一次接触到目前的时间间隔等。访问频率指我们和客户的接触频率。交易数量是我们和客户交互量的度量,例如购买量或者访问站点网页的总量等。在实际构建系统,每一个都需要进行细化。
通常这种针对最近访问时间(recency)、访问频率(frequency)和交易数量(intencity)的分析称为RFI分析。通过对这三个数字数据的收集,我们可以建立一个三维的Cube。数据挖掘人员可以根据这三个数值将客户进行聚类分析,通常的聚类结果为如下八类:
A.购买频率高、信誉好,很少退货。
B.购买频率高、信誉好,但有很多退货。
C.新客户、尚未建立信用情况。
D.偶尔购买的客户、信誉好。
E.偶尔购买的客户、信誉不好。
F.曾经的好客户、最近没交易。
G.经常看到的客户、但很少有交易。
H.其他。
这八个类别就是我们对客户的定性分析。在实际的分析中,我们经常会需要进行时间序列的分析,例如某个客户每个月的情况可能会发生如下的变化。
约翰:C C C D D A A A B B
这个时间序列成功的分析了客户从新客户到偶尔购买,到好客户,到有退货的一个变化过程。
下面讨论在数据仓库的设计时,我们应该如何来对这样的客户聚类分析来进行建表保存,并支持上面提到的分析报告。对于这类的基于时间序列的文本描述信息的保存,我们有三种设计方法。
1.建立事实表,粒度为每个客户每个月一条记录,描述信息已文本保存。
2.采用SCD TYPE 2技术保存在客户维度表中。
3.在客户维度表中建立24个字段保存最近24个月的客户分类描述信息。
前两种方法都会将客户的不同时点的描述信息保存在不同的记录中,对于跨记录的比较和约束查询会比较麻烦。
综合来说,第三个方法的效率会高一些。首先,生成的记录数要少很多。其次,因为在同一条记录上,查询变得容易。最后,和客户的其他事实表进行组合分析变得容易。它的缺点是需要添加很多字段。