用户画像-1

1、什么是用户画像?

用户画像是对用户特征数据的一种建模模型,通过调研、数据挖掘了解用户,洞察用户,基于不同需求目标,将他们分为不同的类型,并对每种特征属性进行抽象,归纳,产出用户特有的特征标签,帮助业务更好的理解用户。

总结一句话:用户数据特征标签化。

2、数据标签化

基于数据的不同类别可以大致划分为三类,策略挖掘、逻辑挖掘以及模型挖掘。

策略挖掘像外卖偏好、游戏偏好以及有车一族等;

逻辑挖掘基于业务特定需求产出对应标签,常见的消费属性中的客单价、消费金额、消费频次等,有统一的生成逻辑,只需基于业务上游数据进行加工即可。

模型挖掘:使用模型挖掘的标签通常对标签覆盖有一定的要求,常见的诸如年龄、性别、收入水平,教育程度等。建模过程中涉及机器学习、数据挖掘算法,譬如监督学习(分类、回归)、无监督学习(聚类、关联分析等)以及神经网络对时序性数据建模,乃至增强学习算法。

基于数据类型可以分为以下几种:

人口属性(基本属性):年龄、性别;

兴趣偏好:消费偏好,运动偏好,购物时间偏好等;

特征人群:有车、有房、旅游达人等;

用户分级:消费能力、收入水平、消费水平等;

LBS属性:常住地、工作商圈、家、公司等;

用户行为:消费属性(客单价、订单金额等级等),浏览频次、交易频次等;

业务标签:契合具体业务产出对应需求标签。

3、标签分析以及洞察

将挖掘好的标签落盘到对应数据表,通过查询对应id对应数据可以洞察该用户在不同属性下对应的特征分布情况,可以更好地服务用户,为业务推送以及引流、大盘人群分析,人群圈选等提供重要支持。

4、画像数据挖掘整体架构

数据收集--->数据清洗----->特征工程------>标签建模----->训练预测----->质量评估------->线上应用----->反馈优化;

数据收集:数据挖掘的天花板是数据本身,常见的数据主要来自于日志打点、通过埋点上报以及爬虫技术收集,通常使用大数据形式进行数据存储。

特征工程:主要针对数据进行处理,涉及异常值过滤、数据易购转同构、数据加工(归一、标准等)。

特征维护:既方便当前标签的正常迭代,也方便后续挖掘新的标签,符合一定的通用普适性,对整体数据进行梳理:用户数据大体上可以分为静态账号属性数据,诸如注册时间,等级,积分等,以及LBS数据(常住地以及活动区域类型等)以及动态的行为数据(购买、搜索、收藏等),在此基础上按照一定维度对数据进行划分。

还可以考虑接入外部信息例如常住地人群的平均消费水平,地段,人流量等,解决数据稀疏问题。

机器学习模型:针对不同的业务需求使用不同模型进行训练,常见的技术包括spark mllib、Xgb、tensorflow等;

应用接口:标签生成后,交付业务方使用,可以交付数据表形式以及建立画像平台,通过平台直接调取显示数据,减少上手成本。

画像应用:将标签数据应用于诸多业务线,真正发挥数据价值,应用方向包括:个性化推荐,用户建模,大盘分析,人群圈选等。

5、困难与挑战

标签质量至关重要,这是一个系统性工程,需要长期维护与优化;建立完善的实时数据流,及时有效捕捉用户画像特征变化。

 

参考:美团机器学习实践

posted @ 2021-03-12 14:05  Qian1996  阅读(314)  评论(0编辑  收藏  举报