分析人的网络轨迹和碎片之四大模式
郑昀 20090830
人,尤其是活跃的互联网用户,都会在互联网上留下很多碎片,这些碎片也许是他自己产生的,也许是来自于新闻媒体,也许是来自他的互联网好友。这些碎片之间,通常会有某种联系。
自动收集这些碎片,可以从中拼凑出一个关于这个人的视图。理论上,可以自动建立一个知识库,像 Wikipedia 一样。
下面我们列出国际上通行的四个模式。
一、基于Email地址的用户数据自动聚合模式
Spokeo 可以根据输入的Email地址(比如遍历你的Gmail所有好友),从以下知名或不知名的Web2.0服务找到邮箱所对应的用户几乎所有公开数据:
Amazon、Blogger、Digg、Facebook、Flickr、Last.fm、LinkedIn、MySpace、Stumbleupon、Twitter、PhotoBucket、Picasa、Windows Live Spaces等等。
我试验过,在不付费的情况下,还是可以看到一部分GMail好友的常见Web2.0服务上的数据,照片居多。但老实说,在中国做到这一点不容易,要求用户始终用一个Email地址注册各种服务,而且这种数据实际上很难从服务提供商那里拿到,只能去hack。
二、基于语义分析的实体关联模式
本模式通常是分析可靠的文字数据,比如新闻资讯,尤其是来自于权威新闻网站。
如果文字来源不可靠,那就意味着你要做大量的工作去噪了,最常见的就是语法错误或者拼写错误。比如 中国雅虎人际关系 收集的语料,如果还包括论坛或博客写手的文章,那么就会被逼着写代码来矫正大量的语法不通顺、成堆的错别字。
它的主要原理还是收集整理以下数据:
实体名称专用词典(人名、地名、组织名);
实体名称在句子中出现时常见的联接词(动词、形容词、名词),尤其是描述关系的名词,比如“谁的女朋友谁”中的“女朋友”,“谁除了老搭档谁外,” 中的“搭档”。简单的做法是寻找两个实体名前后距离最近的、能表述关系的词,根据预先设定的词语权重,决定这句语料要表达的是什么“关联”。
再复杂的考虑就是如何解决“重名”,比如叫李伟或王伟的人太多了。
但说到底,这种模式还是通过实体识别和模式匹配,找到公开的权威资料中实体之间的关联,通过统计以及后期加工,得到的一个人际关系知识库。
中国雅虎的人际关系就是这么一个产品,请点击“刘德华_雅虎人物搜索 ”和“刘德华的人际网 ”查看。微软亚洲研究院的人立方 亦如是,请点击“陈·希·同和陈小同 ”查看。
Evri 最开始面世时,不单单能够看到一个人和其他人之间的关联远近和关联资讯,还可以按照人与人之间的动作做查询,比如你可以查询都有谁赞扬过MJ,查询Obama都批评过哪些机构,或者Obama对希拉里·克林顿都有过哪些情感表述。这都表明 Evri 对实体之间的语义处理达到了炉火纯青的地步。你可以进一步阅读我的文章《情感分析方向近况·0908 》了解 Evri 。请点击 “MJ ”查看。
Google 在前几年推出的 “In Quotes” 能够自动罗列你所选择的两个政治人物对某些关键问题的表述,比如默认的Obama和McCain。这个可能稍微简单些,因为它并不需要分析政治人物之间的关联,也不需要分析人和物之间的关联到底是什么,只需要优选罗列即可。
三、基于语义分析的特征抽取模式
本模式的主要目的是分析给定用户名的行为特征,试图用某些预置的模式去涵盖或描述该用户。
基于此模式所得到的结果,可以帮助某些系统更好地理解用户,从而可以做到个性化推送。
这个模式更像是自然语言处理中的“自动分类”之“软分类”。
MIT出品的 http://personas.media.mit.edu/ ,它利用自然语言处理技术,收集足够多的数据,期望成为一个online persona creator。
比如你输入一个人名,它能尽可能地找到线上数据,以便特征化这个人,最终生成这样的一张图:
personas 计算过程的动画展示比结果更有意思,
毕竟靠语义技术寻找人的互联网轨迹和碎片并拼接出人的特征,出错率太高,即使是对名人都如此,何况普通人。
personas 计算完毕后,你很难估计这个结果到底不靠谱程度有多大,只能通过看中间计算过程显示的那一篇篇语料来估摸。
有兴趣的人可以在 http://personas.media.mit.edu/personasWeb.html 输入isaac mao,shizhao,zuola等名id测试。
四、基于Social关系的连接分析模式
这个模式的初级阶段,其实有无数的服务都曾做过,也就是根据一个Social Media服务的好友关系,绘制出一个大节点图,画出几乎所有人之间的关系。
Twitter上的这种服务有:
实际上利用Social Graph 的数据也可以绘制出类似的连接图。
以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。
郑昀(follow zhengyun) 北京报道 20090830