精细化营销和客户分群
昨天听的一场报告,感觉不错,整理一下。
(电脑死机,本来都快整理好了,哭)
1.什么是精细化营销
精细化营销就是恰当地、贴切根据客户的差异将客户分群,采取不同的营销策略。比较有名的有天猫的千人千面,亚马逊的图书推荐系统……推荐《大数据时代》,挺不错的科普书。
2.什么是客户分群
客户分群的解读三个角度
-
客户需求:需求决定市场
-
客户价值:客户有大客户、小客户、新客户、老客户等划分,他们对企业的利益价值不等。
-
企业资源和能力:适合企业规模的措施
以互联网电商为例,可以关注以下数据:
-
客户人口统计学特征
-
客户接触企业的渠道(通过什么渠道?)
-
客户购买的频次
-
客户购买的金额
-
场景不一样,收集的数据不同
-
客户作为某品牌顾客的时间周期
-
购买某种品牌的频数
-
购买该产品的平均贡献
-
客户购买该品牌的概率
-
R(Recency)最近一次的消费
F(Frequency)消费频率
M(Monetary)消费资源
要解决的问题不同,收集的数据不同,解决方案也不同。
3.精细化营销的数据处理流程
商业理解---数据理解---数据预处理----构建模型---模型评估---模型发布(反复的过程)机器学习和人的学习很像。
4、机器学习算法
主要分为:有监督学习、无监督学习、半监督学习、强化学习
1、有监督学习
关键词:分类学习、预测模型
第一次,小孩指着狗说:“妈妈妈妈这是猫” 妈妈说:“不对,这是狗”;
第二次,小孩指着狗说:“妈妈妈妈这是猪” 妈妈说:“不对,这是狗”;
第一次,小孩指着狗说:“妈妈妈妈这是狗” 妈妈说:“对,这是狗”;
…………
妈妈知道正确答案,可以给小孩纠正,小孩在不断纠正中知道了什么是狗,这种模式就是有监督学习。
特点是——结论是已知的,已知样本的结果,对算法模型进行训练。
2、无监督学习
关键词:关联模型、聚类分析
来到新的班级,大家都很陌生,一段时间之后就三五成群了,整个过程是没有人干预的,自动形成了一个个小群体。每个小群体的成员必定有相似之处,人以群分么。这就是无监督学习。没有训练之前,我们无法确定结果会分为几组,哪些会成为一组。
聚类:无监督学习的一种,是将一组对象划分成簇cluster,是簇类内的对象相似度尽量大,簇间尽量小。客户分群用的就是聚类。
3、聚类的简单算法——KMeans
KMeans算法:,
第一步:设置分类K值
第二步:设置初始质心簇的位置
第三步:不断迭代,计算距离,寻找新分类簇的簇心点(这个距离欧者马式)
第三步:收敛完成聚类(收敛标准,比如0.001)
过程的第三步有数学公式。学大数据不是学算法也不是学数学,只需了解算法的思路和数学公式的含义即可,不必细究。
有人造车,有人开车,大数据是开车。车自然有算法工程师和数学家造。
优点:
(1)、是解决聚类问题的一种经典算法,简单、快速(谁近跟谁,逻辑很简单)
(2)、对处理大数据集,该算法保持可伸缩性和高效性
(3)、当簇接近高斯分布时,它的效果较好。
缺点:
1)、在簇的平均值可被定义的情况下才能使用,可能不适用于某些应用;
(2)、在 K-means 算法中 K 是事先给定的,这个 K 值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;
(3)、在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果;
(4)、该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的;
(5)、若簇中含有异常点,将导致均值偏离严重(即:对噪声和孤立点数据敏感);
5、大数据学习方法
学习是,遵循这个顺序:“是什么、怎么用,用的更好。”
技术的落点是业务,为了解决问题采取学技术。
技术和应用结合,由面到点的提升。用到什么学什么,做的事开发,做的不是语言,不要受限于语言。
编程语言、工具没有优劣之分,取决于使用场景。合适的才是最好的。
java一定要学好,必须学好一门静态语言才能在IT行业走得更远。
当下python比较火,但Java在大数据中的地位还是无可撼动,python脚本语言简单高效,但太轻量级了,对大数据处理中的高并发、多线程等优化还是不行,它更主要的作用是胶水。
当下流行的Hadoop生态系统,几乎全是java写的;Spark虽然用Scala开发,但Scala是运行在JVM中的;
Flink也用java。学习大数据,更像是学习java框架。
不断清空自己,空杯心态,不断学习才能不被淘汰。大数据发展很快,各种框架会越来越多。
初学者应该尽快把握整个业务流程,先着重于应用层,业务处理流程熟悉后再去深入研究底层,考虑优化等问题。
6、其他
有些东西不是不能做,而是没必要做:
语音识别,技术上难度并不大。但是以目前的算法,即使大公司资源充足,训练模型也需要上万小时(对模型训练时长有了点认知),这还是基于模型足够成熟的情况下。所以没必要自己去做,调别人做好的就行。
然后阿里云平台,以前只用过服务器。发现它提供的算法平台啊、云数据库啊、各种场景的解决方案啊……大为惊叹
大数据时代,大数据时代……似乎对这五个字多了一些感悟和思考。生态体系、智能时代、解决方案……一扇新的大门。
循着阿里云这条线,拓展自己的知识面吧。