大数据用户画像方法与实践(干货 转帖)

在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~

首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是 信息技术的自然延伸,意味着无所不在的数据。

我们先看下数据地位发生转变的历史,在传统的IT时代,TI系统围绕业务服务,在这个服务的过程中沉淀了很多数据,再在数据的基础上做一些分析。但是到了DT时代不一样了,数据是现实世界的虚拟化表现,数据本身构成了一个虚拟世界,IT系统构建在虚拟系统上,变得更加智能。

1

大数据无处不在体现在几个方面

第一个就是说我们社会信息化的建设越来越发达。

第二个是随着可穿戴设备的发展,人产生了越来越多的数据,接入网络当中,同时人和人之间沟通的方式也不仅仅是传统的面对面,传统理解人、与人沟通的方式发生了根本的变革,因此我们要学会从比特流中去认识人类,因此构建用户画像这件事就变得更加重要。

而且现在机器也变得很智能了,所以我们还要教会机器来认识人类,这样才能在画像的基础上构建应用,譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发,因此知道用户画像对于这些应用的重要性。

如果大家是来自互联网公司的话,我们经常会提到这些词:用户画像、标签、360度用户视图等等,有不少人甚至就是做这面的研发工作,但是这些概念让你感觉有一点似是而非,我以前也有这样的感觉,就是说没有从根本上把这些概念弄清楚,因此有必要把这些概念从根本上弄清楚。

2

首先看一下我们生活中的用户画像

举个例子,”身长八尺、面如冠玉、头戴纶巾”,大家会想到一个人是谁?诸葛亮是吧,这是一段文本上的描述。大家再看一下,下面这张图大家又会想到谁,希特勒。再看一下右边这幅图,这是一个球员。这个就不用说了,是美国的奥巴马。这些都是生活中的画像,都是为了描述一个人,但是它们的描述方式和角度不一样的。

但是从我们这些描述当中可以看出一些共性,主要体现在如下几个方面:

第一个是目标,目标都是为了描述人、理解人,这是用户画像最大的目标。

第二个是我们描述的方式,可以分为两种:第一种是非形式化的手段,我们前面看到的语音、文本,都是非形式化的,另外一种是形式化的手段,譬如刚才我们看到的奥巴马身份证,你可以把身份证放在读卡器上,就可以把对应的信息读取出来。

第三个就是结构化和非结构化的组织方式,我们前面看到的球员数据它就是结构化的。

第四个就是用户画像标准,这个很重要,这是我们一会要讲的,为什么?比如说,我们在描述用户的过程当中要有一些共识,举个例子,我说某个人特别二次元,这个词对方就可能听不懂,是因为双方对二次元这个词没有达成共识,所以必须有一套达成共识的的知识体系,不然用户画像这件事是没有办法达到的。

最后一个是验证,就是说我们做完用户画像以后,一定要去验证。举个例子,我跟你说某个人特别不靠谱,相当于打上了一个标签,你一定会反问我为什么不靠谱,你的依据是什么,就是我们给用户生成画像之后,我们一定要给出依据和推理的过程,告诉你这个结论是怎么得到的,不然就没有可信力。

3

那么到底什么是用户画像呢?

用户画像是对现实世界中用户的数学建模,它包括两方面:

一方面是描述用户,没有说人,是说明它跟业务密切相关,它是从业务中抽象出来的,因此来源于现实,高于现实。

第二个是用户画像它是一种模型,是通过分析挖掘用户尽可能多的数据信息得到的,它是从数据中来,但对数据做过了抽象,比数据要高,后面所有用户画像的内容都是基于这个展开的。比如刚刚说的月光族,这个肯定是挖掘分析出来的,不是说原来的数据中包含月光族这个标签,所以说这是它的两层含义。

然后就是刚刚说的,用户画像是现实生活中的数学建模,但是我们如何描述这样一个模型,核心是要有一套标准的知识体系,描述用户画像。

另外一个方面,就是要有一套数据化、符号化、形式化的方式去描述这套知识体系,什么叫形式化?就是机器要能够理解这套知识体系,如果只有人理解的话,这个东西是没有办法使用的,所谓形式化就是这个含义。

这种方法到底存在不存在,60、70年代就已经存在了,做语义分析的朋友可能听过这个本体论,在90年代的时候,本体和语义网络非常流行,这个东西是比较复杂的,它帮助机器去理解知识体系,由于非常复杂,我就简单说一下,类似于UML这种语言,包括实体、联系、推理等等。就是说通过这套方法论,可以理解知识,甚至教会它怎么去推理,这就是前面说的本体论。这个方法是很复杂的,非常麻烦。

我们这里有一套非常朴素的方法,大家可以看一下这张图,我们在现实世界中怎么表述知识。

我们最开始学习语文的时候用的是什么,是新华字典是不是,字典中大家看到的组织形式是什么,首先是词,词作为它的表现符号。

另外是什么,它后面会跟着比较长的解释文本,就对应一个概念,那么就是说,这里符号与概念是相对应的。

用我们现实生活中的一个例子来说,你比如说拿狗这个例子来说,狗这个词是一个符号,但是对应我们脑子中的概念是什么,”四条腿,一个能看家的、一个能汪汪叫的 动物”,对不对?对应的实体就是我们现实生活中看的各种品类的狗,是吗?我希望大家可以记住这张图。

上面这张图中的模型就对应前面图中所指的概念,标签就对应前面这张图上的符号,在这张图当中,标签是一个符号要去表达模型对不对。举一个简单的例子,比如说我这个产品,想卖给”收入高、坐办公室” 这个群体,白领可以表示这样一个用户群,白领这个词就是一个一个符号,一个标签。

另外要强调的是标签它是跟业务密切相关的,比如说就拿最简单的标签男女来说,在阿里内部,关于男女,这样最简单的标签,也有12个男和女,它与业务密切相关,不仅仅是指生理上的男和女,另外还包括在互联网喜欢买男性的商品或者女性的商品定义的男女等等,在这个层面来讲,对男女的标签又有了一层新的理解。

这个符号是跟业务场景绑定在一起的,脱离这个业务场景,这个符号就没有明确的含义。

刚刚说到了用户画像的定义、标签的定义,那么我们平时经常说的用户画像和标签,它们之间是一个什么样的关系呢?

其实是一个整体和局部的关系,用户画像是整体,标签是局部,整体和局部的关系通过“标签体系”体现。整体和局部总包含两方面的关系:化整为零:整体如何反映在局部;化零为整:局部如何组成整体。举例来说:“人有一双眼睛一个鼻子”,那:化整为零:对每个人都应该观察到一双眼睛和一个鼻子;化零为整:只有位置合适的一双眼睛和一个鼻子我们才认为他是一个人。

这里还有标签体系,要重点说的是,我们在给实际企业客户构建用户画像的过程中,需要和他们的业务部门、产品部门去构建标签体系,因为标签是和业务密切相关的,他们的标签体系是要搜集所有业务方的需求,制定出来标签体系以后,给出每一个标签标准的定义,然后才是进行标签的开发。

4

用户画像的验证

最后说的是用户画像的验证,就是说我们在给客户提供方案的时候,他们经常会问的一个问题,构建的用户画像结果怎么去验证?在我们看来,用户画像作为用户在现实中的数学建模,对模型的验证可以分成两个方面,一个是准确率的验证,你的标签打得准不准,就是我们经常说的准确率。第二个是标签打得全不全。但是对于这两个方面来说,你是没有办法同时满足的。现实业务中无法追求完全,因为你不可能做出一个100%完备的标签体系。

因此我们验证更多谈的是准确性,可以分为两种,一种是有事实标准的,譬如生理性别,可以用标准的数据集验证模型的准确性,另外一种是无事实标准的,譬如用户的忠诚度,我们只能验证过程,具体的效果需要通过线上业务A/B Test进行验证。

前面介绍了用户画像的理论:用户画像是对现实用户的数学建模,标签是一个符号,标签与业务关联在一起才有意义,用户画像和标签是整体和局部的关系。接下来介绍用户画像的实践。

5

用户画像实践

上面这张图是用户画像生产和应用的逻辑架构,包括5层:

数据采集层收集用户的各种数据,就拿一个公司来说,它的数据源分布在各地,有CRM系统的,有分散在各个部门的,构建DMP的一个难点就是要把各处数据都搜集起来,甚至需要老板去推动。

数据管理层对这些数据进行清洗、拉通、整合以及分析建模,构建用户画像。

数据接口层和应用层基于用户画像,提供各种分析、服务类以及营销类的应用,服务于金融、制造、航空等各个行业的用户。

要精准构建用户画像,面临着许多技术难题,接下来重点介绍用户多渠道信息打通、多渠道的产品打通以及用户数据挖掘建模,这三个方面接下来会一一展开讲。

首先介绍用户多渠道信息打通,用户与企业的触点非常多,譬如手机、邮箱、Cookie等等。我们要将同一个用户的这些多个触点进行打通,需要站在上帝的视角。我们可以把用户ID视为图中的顶点,如果用户的两个触点在同一个场景出现,譬如用邮箱登陆,那么我们会在用户的邮箱和Cookie用一条边进行连接,从而构建一张图。

图中连通的ID可以视为同一个用户,从而实现用户拉通,拉通可以基于图的方法进行强拉通,也可以采用机器学习的方法进行模糊拉通,预测出拉通的概率。

另外,拉通的可信程度由业务的密度决定,密度越高,对可信度的要求越高,譬如推荐是低密度业务,即使识别错误,影响比较小,但对于 电商的 短信通知服务,如果识别错误,体验就会非常差。

刚刚讲到的是用户打通,接下来要讲的是如何将不同渠道的产品拉通,譬如我们的电商客户第一方的标签体系都是有差别的,所谓标签体系拉通就是建立一套标准的分类标签体系,一般都是一颗分类树,任何一个商品都能划分到这个分类树的叶子节点。根据我们的实践经验,手工映射的方法成本高、难以大规模开展,我们实际是采用机器学习模型+少量的人工规则来实现的。

具体的模型实现见上面这张图,要实现自动分类,其中的难点不在于模型,而在于获得训练数据、feature engineering以及分类树层级节点之间的依赖问题,在这里我就不具体展开了,目前对于我们电商渠道的商品,分类准确率在95%以上。

在用户画像建模方面,我们把标签建模分为四层:

第一层是事实类标签,譬如用户购物了什么品类;

第二层是机器学习模型的预测标签,譬如当下需求、潜在需求等等;

第三层是营销模型类标签,譬如用户价值、活跃度和忠诚度等等;

第四层是业务类的标签,譬如高奢人群、有房一族等等,它是由底层的标签组合生成的,通常由业务人员定义。

用户画像的应用前面介绍了用户画像的理论和实践,接下来介绍基于用户画像的应用。

用户画像的具体应用包括售前的精准营销、售中的个性化推荐以及售后的增值服务等等,后面会进行展开。

用户画像的标签维度和应用是相互相承的关系,一方面可以根据现有的标签维度开发应用,另一方面可以根据应用的需求扩展标签的维度,两者互相促进。

我们在这里举的例子分为三类。

第一类是售前的精准营销,譬如电商客户和企业客户,需要经过精准营销,把站外的用户吸引到你的网站上面来。

第二,售中的个性化推荐是说,你把这些用户吸引过来了以后,如何通过个性化推荐的方式能够更好地提升站内转化的效果。

第三个是售后的增值服务,就是你把这个产品卖出去之后,不是这样就结束了,而仅仅只是你跟用户接触的开始,可能涉及到用户后续的产品咨询或者吐槽等等,也就是会涉及到售后增值服务方面的问题等等,这三个应用都跟用户画像密切相关。

首先是根据用户画像进行精准营销,这块大家对门户广告、百度的搜索广告或者现在的一些dsp公司投放的程序化广告比较熟悉,百分点要做的事情是帮助企业整合以及拉通它们自己的第一方数据,建立企业建立用户画像,实现全渠道营销。

这是我们为某知名制造企业客户做的一个大数据项目,目标就是拉通和建立消费者统一的用户数据平台,建立消费者用户画像,并基于用户画像实现精准营销。上面这张图是为该企业构建的用户画像体系,具体的维度包括基本信息、产品信息、财务信息、风险信息和资产信息等等。

而且结合百分点的营销管家产品,可以实现触发式的营销,譬如用户在某网站下单购买一款手机,便可以立马给他推送该品牌手机对应的手机配件广告。最终的效果是,通过用户拉通与用户画像,对59万潜在消费者形成4个精准人群进行投放,是盲投点击率的10倍。

再举社会化营销的一个例子,我们的某个家电制造企业客户,新品发布时期望通过短信和邮件方式,从老用户中找出最有可能参加活动的粉丝。我们利用企业的CRM、客服、销售等数据,对用户忠诚度进行综合评定并挑选忠诚度最高的用户作为招募目标,带来了超过一半的粉丝,但成本只有以往的40%。

前面讲的售前的精准营销,接下来是售中的个性化推荐,这是百分点最开始创立时做的事情,目前已经服务超过1500家的电商和媒体客户,是国内最大的第三方推荐服务提供商,百分点推荐一个很大的优势是利用全网用户画像进行推荐。譬如对于王府井商城的一个新用户,在首页进行推荐时,因为对它的历史没有了解,只能推荐一些热门商品。但对于百分点来说,我们知道该用户在其它客户网站上的行为,譬如它对化妆品很感兴趣,就可以推荐相关的化妆品,利用全网用户画像解决了王府井推荐的冷启动问题。

这是百分点推荐引擎的设计架构,核心是四大组件,包括场景引擎、规则引擎、算法引擎和展示引擎,尤其是规则引擎非常强大,可以根据客户的业务需求可视化配置推荐逻辑,譬如推新品、清库存等等,而不仅仅是点击率最优。由于时间关系我在这里不再详细介绍了。

我们这里举一个推荐的实际应用例子,我们的某个团购网站客户,下网采用我们的推荐引擎解决它下单率的问题,我们通过分析发现该网站用户的一系列特征,譬如忠诚度低、区域性购买等等。

我们采用了一系列的优化措施,譬如根据用户画像中品类偏好、商圈偏好、消费能力等标签优化召回,使得该团购网站的点击率平均提升18.23%,直接下单提升86.95%,取得了非常理想的效果。

最后一个例子是如何结合用户画像提供“售后”增值服务,上面这张图是我们给客户的一个应用系统方案,可以通过数据接口实时反馈用户相关信息,譬如历史维修、历史咨询等等,以及进行知识推荐,支撑服务效率和客户满意度;同时收集用户的服务满意度数据,补充和完善用户画像信息。

6

小结

最后再对前面讲的内容进行一个小结,在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要,是上层各种应用的基础。

构建用户画像的核心是进行标签建模,标签不仅仅是个符号,而是和业务紧密关联,是业务和技术非常好的结合点。

最后再结合我们自己的实践经验,给出了画像在精准营销、个性化推荐以及售后服务的3个例子,说明了用户画像在实际业务中的重要价值。

posted @ 2018-06-12 15:50  本本123  阅读(719)  评论(2编辑  收藏  举报