【近战】基于微博用户关系与行为的用户建模分析

原文:http://yq.aliyun.com/articles/112

【编者按】好的技术实战分享从来不因为时间的流失而褪色。2011年开始运营的阿里技术沙龙共积累35期,近100位深度实战培训资源(PPT+视频)让很多朋友大呼过瘾。接棒阿里技术沙龙,云栖社区特别挑选最具人气的12场深度实战分享组成【近战】的第一个系列。其中包含新浪微博、淘宝搜索、美团、美丽说、淘宝推荐、小米、支付宝、阿里云、淘宝无线在内,涵盖建模、个性化推荐、排序学习、系统优化、数据监控、流量优化、架构探索等多方面一线经验总结。

 

以下为【近战】第一篇,基于微博用户关系与行为的用户建模分析。


用户建模是广告、推荐、搜索算法最基础也是最核心的技术问题之一,本报告将介绍新浪微博大数据挖掘团队如何综合利用社交关系和用户行为来建立用户模型。以下分享下精彩内容。

 

微博及大数据

  微博作为中国最大的社交媒体平台,微博沉淀了海量的用户,内容,关系,和行为数据。

  其中用户:注册人数10亿,月活人数1.98亿,日活人数:8900万。关系:关注关系近千亿,分组关系50亿+。内容:日增博文1亿+,日增原创4000万。行为:转发6000万, 评论3000万,赞1亿,收藏:1000万, 查看200亿。

                                               图1

  如图1,微博大数据要做什么?要帮助用户发现感兴趣的内容,加快有价值内容的传播效率。目标如何实现?要挖掘有能力生产垂直领域优质内容的用户,挖掘用户内容消费的兴趣偏好。工作如何串联?用户能⼒力标签,用户兴趣标签,微博内容标签。

大数据标签体系

   

                                           图2

图2所示为大数据标签体系的基本框架图。

用户能力标签——

用户能力标签的产品形态

                     

                                                           图3

如图3微博找人直接推荐各行各业的能力用户

                            

                                                               图4

如图4微博头条输出各领域原始语料的专家库

               图5

 

图5为用户能力标签库的整体框架

 

用户能力标签库的策略算法如下:

(1)基于决策树的分组名分类算法:将分组名分为兴趣分组名和熟人关系分组名。兴趣分组名用于用户的能⼒力兴趣计算,熟人关系分组名用于用户的自然属性挖掘。

(2)基于用户关注关系数据计算用户在关系方面的能力:利用兴趣分组名称构建出标签的相关词库,进而通过归一化公式计算出基础权重。

  (3)基于用户发布内容数据计算用户在内容⽅方面的能⼒力:用户在某个领域发布博⽂文数量、纯度、互动量越⾼高,在这个领域内容⽣生产能⼒力越大。

  (4)通过PageRank计算用户在垂直⾏行业的影响力:通过PageRank计算具有⼀一定内容⽣生产能⼒力和关系能力的用户群中每个用户的影响力。

  (5)通过线性加权将用户的关系、内容和⾏行业影响力计算为在这个垂直领域的综合能力:用户能力标签归⼀一化到0~100的区间,达到横纵向可比较。

                                           图6

主要问题如图6,标签的自动聚合和筛选时的噪音问题,微博短文本分类及语义主体识别问题。

                                                图7

图7为标签自动聚合流程。

用户能力标签的效果很好,挖掘出120万能⼒力用户,覆盖月活粉丝1.6亿;微博用户中娱乐、互联⽹网、财经行业名人最多; 微博用户中动漫、美食、旅行行业精英最多;微博聚集了近万名互联网技术牛人。

 

用户兴趣标签

用户兴趣标签的产品形态

                                            图8

图8是基于兴趣推荐用户感兴趣的文章。

                                              图9

图9是基于兴趣Push用户一段时间内关注人发的但是没看过的微博。

                                           图10

图10为用户兴趣标签库的整体框架。

用户兴趣标签的策略算法

(1)          圈定各垂直领域的能力用户集合:根据用户能力标签分数分布以及各分数段的意义,圈定垂直领域的能力用户集合。

(2)          根据用户对能⼒力用户的关注关系计算用户在关系⽅方面的兴趣:关系兴趣权重的计算规则:根据w1和w2最终确定关系兴趣的权重。

(3)          根据用户对内容产⽣生的⾏行为计算用户在内容消费⽅方面的兴趣:微博⾏行为包括:原创,转发,评论,赞,收藏,查看微博等十几种行为,不同的行为对应不同的分值,最终通过归一化公式计算用户消费内容的兴趣权重。

(4)          通过线性加权计算用户的综合兴趣调权:通过不断的迭代测试,用户在内容消费⽅方面的权重更高一些。

用户兴趣标签的主要问题:

  用户的兴趣相对于能力⽽而言是时间敏感的, 如何在用户的兴趣权重上体现出时间敏感性是一个关键问题。如图11所示,

  

                                    图11

所有用户都对实时,旅游,明星感兴趣吗?活跃用户体现出的兴趣极为广泛。

用户行为权重的时间衰减:基于时间维度的行为热度衰减: 在博⽂文消费方面,用户通过转发、评论、赞等行为来表达自己对领域博文的兴趣,其表达的兴趣热度及重要性随着时间是逐步衰减的,我们

通过牛顿冷却定律来量化衰减的程度。如图12所示,

                                            图12

用户兴趣标签的效果是:挖掘出1.6亿用户的精准兴趣,覆盖微博月活75%。微博用户中对娱乐、时事、互联⽹网感兴趣的⼈人最多。微博聚集了110万对互联网技术感兴趣的人。

用户标签的规划

  规划用户身份,规划用户即时兴趣,规划用户质量等级。图13 为微博大数据用户体系。

                                                图13

 

来源:阿里技术沙龙 

分享:朱红垒,新浪微博大数据挖掘团队技术负责人

PDF可下载

 

同论坛其他议题分享地址

【近战】系列文章,跟踪tag标签即可得到。 

posted @ 2015-12-30 18:00  止战  阅读(1087)  评论(0编辑  收藏  举报