理解用户画像

Posted on 2017-11-29 22:37 天戈朱阅读(3710) 评论(0) 编辑收藏举报

伴随着大数据、精细化运营、人工智能、机器学习等一大波新技术和概念的崛起、普及，如今互联网产品又该如何运营、攻城略地？本文介绍的用户画像或许能带来一点思路。

用户画像数据定义

用户画像是根据用户社会属性、生活习惯和消费行为等信息/数据而抽象出的一个标签化的用户模型。
构建用户画像的核心工作即是给用户贴“标签”——用数据来描述人的行为和特征，用通过对用户信息分析而来的高度精炼的特征标识（标签）从不同的维度来表达一个人，是对现实世界中用户的数学建模，是数据策略的基石。
从数据结构角度而言，用户画像是一个（用户，标签列表）二元组。

用户画像的作用

用户画像承载了两个业务目标：

一是如何准确的了解现有用户；
二是如何在茫茫人海中通过广告营销获取类似画像特征的新用户。

比如在了解用户的基础上明确产品定位，“投其所好”；获取一个新用户/新订单；售前的精准营销、售中的个性化推荐匹配，以及售后的增值服务等。

用户流量的三大终极问题：认知用户

“用户是谁？”（用户画像与特征）现存客户 (Existing Customer) - 我的现存客户是怎么样，喜欢什么，什么消费习惯，哪些客户最值钱等等“用户从哪里来？”（用户来源渠道与效果）
1. 现存客户 (Existing Customer) - 我的现存客户是怎么样，喜欢什么，什么消费习惯，哪些客户最值钱等等
2. 潜在客户 (Prospect Customer) - 我的潜在客户在哪，他们喜欢什么，通过什么渠道获取，获客成本是多少等等
“用户从哪里来？”（用户来源渠道与效果）
“用户到哪里去？”（用户流失与召回）

另一方面，用户画像的难点在于如何精准描述用户特征，用户特征描述越精准，用户画像越清晰，这个构建的难点主要在下面4个方面。

应用场景

1、效果广告/精准推送/用户变现/用户召回

著名广告大师约翰•沃纳梅克提出：我知道我的广告费有一半浪费了，但遗憾的是，我不知道是哪一半被浪费了。这句话深刻的道出了广告营销海量投放下面临的几个问题：

不精准：受众窄
不友好：骚扰多
不经济：费用高

而如果在精准营销大行其道的今天通过筛选标签对特定属性的用户推送针对性的内容，则可以大幅提升CTR（Click-Through-Rate 点击通过率）和变现效果，同时还能降低广告、运营成本，总结起来就是：在对的时间，向对的客户，通过对的渠道，推荐对的产品。

比如 DSP(Demand-Side Platform)、流失预测、沉默用户分析（代金券发放）、非活跃用户（短信\push召回）、忠诚用户（极速退款、VIP客服）等

2、搜索/推荐

用户画像时下一个比较重要的场景是搜索推荐，把画像数据和特征结合使用，可以有效提升 CTR，结合搜索、query意图识别与推荐，常见的方向有：

关联推荐
向上推荐
RFM营销 （R = Recency 最近一次购买，F = Frequncy 复购频率，M = Monetary 顾客价值）

3、风控

这个方向在电商、金融、初创公司是很重要的，如何避免或者降低羊毛党、黄牛、欺诈对业务的风险和用户损失，保障正常用户的利益，是个永恒的话题。

比如可以利用用户画像对个人及企业级信用评分进而做到欺诈识别，现在芝麻信用就是个很好的例子，利用它做用户征信可以有效提升用户体验，降低企业成本与风险，比如共享单车免押金，酒店免押金预订后付费等。

4、大数据分析

产品精细化运营，个性化分析支持，这个就无需赘言了，比较广泛的应用场景，主要用数据解决产品运营过程中 what 和 why 层面的问题。

5、小结：

总的来说，用户画像是精细化运营、数据化运营的需求产物，大数据的本质是消除不确定性，结合大数据我们可以更加精准的分析了解用户特征/用户行为，以便更好更多地服务于大多数用户，比如发送较少的优惠券和补贴，同时还能做到反作弊避免薅羊毛行为。

从用户角度而言，用户画像可以应用于用户的整个服务生命周期：

用户拉新、提升用户体验、个性化推荐及交叉推荐以便提高用户转化率、用户挽留、用户激励等等

从产品角度而言，用户画像可以应用于产品的整个生命周期：

包括优惠券发放、反欺诈、动态调价、用户与服务产品及商家的智能匹配、PUSH消息推送等等

关键技术点

1、IDMapping

中国的互联网普及率还是很高的，但在大数据统计分析、用户画像等场景中，经常会面临的一个问题是怎样识别和标示唯一用户？

像微信、QQ这种天然闭环的业务相对容易，但像信息流、分类信息类非闭环业务怎么办？用户不需要登录即可浏览信息使用服务，比如头条网易新闻客户端、百度搜索引擎、58同城等，这样当用户有跨屏行为、跨业务客户端场景时，很难持续的追踪、准确的刻画一个用户的全貌。

从技术上而言，cookie 这种技术在移动互联网时代追踪用户是极其不稳定和准确的，另外用户标识还可能有如下形式存在：IMEI、Token、IDFA、CellNO、UserID、IP、MAC，如何将这些原始ID聚集关联到真实用户上，将之和多渠道信息、多渠道的产品打通，这其中横跨了数据治理、数据整合、业务打通等几个难点。

2、打标签

用户标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识，它是一种相关性很强的关键字，可以简洁的描述和分类人群。比如好人和坏人、90后80后，星座、白领等。

具体流程一般是从纷乱复杂、琐碎的用户行为流（日志）中挖掘用户在一段时间内比较稳定的特征，即给用户打上标签，标签的确定，一般是先人工筛选小样本规则，进行验证标注，规则合理后，在通过算法扩展。

最后是评估画像的好坏：小样本的真实验证；A/B Test；在实际的case 中迭代验证，这点从技术角度而言会有些挑战，比如怎么保证准确率和覆盖率。

标签建模

1、属性标签：比如自然属性标签里的性别、年龄、星座等，社会属性里的职业、社交、出生地、电话号码等

这块有一定的门槛，因为不再是基于事件行为的事实统计了，需要一定的挖掘算法做预测，咱们以性别为例：

性别属于个人隐私，不是每个用户都愿意填写，而且出于保护自己或者其它目的，填了也不一定是真实的，此时你想给用户打上性别标签，就需要用到机器学习相关的算法了，而且需要对准确性和覆盖率负责，一般来说我们会采用如下策略中的一种或多种来预测用户性别：

整体的技术方案和模型算法如下：

2、事实标签

比如购买行为、位置包括常驻地、出差地等、使用设备、社交属性等，这类一般都可以直接从日志中直接提取，加以简单的聚类算法辅助即可。

3、营销标签

这块比较偏业务属性了，往往带有明确的业务目标建模而成的，比如LTV(life time value)用户价值、活跃度、忠诚度、兴趣爱好、白领、高奢、有房一族、购买偏好等。

4、预测标签

比如之前提到的性别，其实在大部分场景下也属于一个预测标签，一般而言，我们需要一定的数据挖掘算法，集合用户日志提取APP特征、事件特征、浏览内容特征，对非结构化数据来说，通常要经历“分词”、“过滤”和“特征提取”三个步骤。

另外一块是数据建模，选用合适的算法训练数据，比如到底是分类还是聚类，朴素贝叶斯，逻辑回归，SVM，神经网络哪一个合适？在模型的优化过程中，调参优化是非常重要的一步，在调参优化过程中我们通常会遇到过拟合，样本不均等情况，从整个业界来看，整体模型也差不太多，能拉开差距的基本还是对数据的理解和数据处理上，再举个例子：咱们要打个大学生标签，那么有哪些思路？基于 LBS（Location Based Services）数据？APP 关联数据比如特殊APP/四六级、考研、超级课程表？

5、技术方案

技术这块涉及到存储和计算，一般根据公司的业务体系来设计，存储有HDFS，HBASE，ES等等，计算有 HIVE、Storm、Kylin、Spark 等，标签的更新频率分场景：每日更新，每周、每月更新。

标签数据的验证也是个比较耗资源的事情：

查准率：一种是有事实标准的，譬如生理性别；无事实标准的，譬如用户的忠诚度，只能验证过程，具体效果需要通过线上业务A/B Test 进行验证
查全率：到底有多少用户覆盖到了，但这两个方面一般没有办法同时满足的。现实业务中无法追求100% 完备的标签体系。

标签体系

标签体系的构建策略可以按扁平结构或层级结构来分比如下图两者都有体现：

标签体系也叫群体画像，群体画像与个体画像两者都是对人的描述，但群体画像归纳的是人群所呈现出的共性，而非多样性特征。比如想得到美甲用户群体的画像，就需要用一定的方法寻找他们的共性，除了统计手段可实现外，更简单的办法是把这些个体的年龄＼性别＼职业＼收入等标签作为数据挖掘聚类算法的输入，聚成较少的几类比如2类或3类，如果某个类别的用户所占比例较高，那么这个类别的群体特征就代表了整个群体的画像，画像标签可能是：女性＼年龄25-30岁＼自由职业＼收入万元以上。

在标签的构建手段上，不仅是数据挖掘，根据业务经验的判断往往更行之有效简单易行：业务经验结合大数据分析为主勾画的人群，此类画像由于跟业务紧密相关，更多的是通过业务人员提供的经验来描述用户偏好。比如：根据业务人员的经验，基于司机路程偏移、时薪和当天服务用户数等等，建立多层综合指标体系，从而对用户的欺诈可能性进行分级，生成司机信用评级的画像。

用户画像的架构

不同业务的画像标签体系并不一致，这需要数据和运营目的性的提炼。用户画像一般按业务属性划分多个类别模块。除了常见的人口统计，社会属性外。还有用户消费画像，用户行为画像，用户兴趣画像等。具体的画像得看产品形态，像金融领域，还会有风险画像，包括征信、违约、洗钱、还款能力、保险黑名单等。电商领域会有商品的类目偏好、品类偏好、品牌偏好，不一而足。

从数据流向和加工看，用户画像包含上下级递进关系。以流失系数举例，它通过建模，其依赖于用户早期的历史行为。而用户早期的历史行为，即10天内的消费金额、消费次数、登录次数等，本身也是一个标签，它们是通过原始的明细数据获得。

上图列举了标签加工和计算的过程，很好理解。最上层的策略标签，是针对业务的落地，运营人员通过多个标签的组合形成一个用户群组，方便执行。

公司越大，用户画像越复杂。某家主打内容分发的公司进入了全新的视频领域，现在有两款APP，那么用户画像的结构也需要改变。既有内容相关的标签，也有视频相关的标签，两者是并行且关联的。

比如A用户在内容标签下是重度使用，而在视频标签下是轻度。比如B用户很久没打开内容APP有流失风险，但在视频APP的使用时长上看很忠诚。如此种种，看的是灵活应用。当然，姓名性别这类人口统计标签，是通用的。

用户画像的标签建模参考结构：

用户画像的数据架构参考：

数据采集与挖掘计算

画像标签构建涉及到大数据采集、存储、建模、计算、可视化展现全链路，除了对算法有要求，对工程架构能力还是有比较高的要求的。一个典型的工程架构如下：

一个典型的画像算法架构如下：

数据挖掘：

根据用户的数据挖掘出一些有用的规律进行决策，数据挖掘就是通过属性筛选、聚类算法、关联分析、回归算法等方法，去发现人群与人群、人群与商品、商品与商品、商品与品牌等之间的差异与联系，从而发现并挖掘更大的商机。

数据挖掘往往能解决“喜欢什么东西的人往往还会喜欢什么” 、“或者做了这件事的人往往还会做什么”这些场景。我们可以看到，京东、淘宝在38妇女节不仅对女性类目的商品进行活动，还会附带男性的商品进行促销或者组合活动。男性商品跟女性节日看起来没有什么关系，其中却蕴藏着大道理。就好似我们熟悉的啤酒和尿布营销案例：沃尔玛超市通过大量的数据调查，发现周五下班点后会有一类人群（奶爸）购买两类商品——啤酒和尿布，于是对这两类商品组合促销并收获了令人满意的结果。啤酒和尿布本身并没有联系，却通过用户画像技术，使得这两个商品结合产生了更大的效益。

另外数据挖掘还可以为用户进行恰当的推荐，这个场景也就是我们在京东、淘宝首页上能看到的 “为你推荐”“有好货”等推荐栏目了，这些栏目会根据用户画像为用户私人定制相关的推荐商品、商铺和文章。

平台建议：