实时Web数据的实时分析
郑昀@玩聚SR 20100306
Real Time Web大多指对Twitter为首的微博客海量数据进行快速索引,搜索结果实时滚动显示。快速索引,比拼的是索引多久更新一次,5分钟、1分钟乃至10秒,比如对任意输入的查询关键词,都能看到1分钟内发布的微博客消息(微博消息足够短,有机会快速索引)。
但是实时分析就不那么容易了。实时分析大致有几种:
- 趋势分析:不同网站对查询关键词每日提及次数变化趋势。Ubervu做得不错,如Chile。
- 热门链接分析:把关联结果中相对热门、相对重要的链接挑出来,单独展示,可以按时间排序或按重要性排序。OneRiot比较擅长这一点,如搜索Chile。热门链接的甄选一般都是依据Twitter等微博客消息的链接分享次数。
- 语义分析:
- 情感趋势分析:即Sentiment analysis 或 opinion mining。Big Event这一点做得也不错,诸如:美团网页面左侧的王兴饼图,韩寒PK刘谦中的刘谦和韩寒两个饼图。ubervu则对每一个conversation都做了情感分析,并画出了情感变化趋势曲线。
- 关联分析::
除了OneRiot外,下面再举两个实时分析的Real Time Search Engine网站:
一、ubervu的启示
ubervu自称是Real-time Social Media Analytics,颇有一些功能。
1、
把某一个关键词下的数据整合为一堆Conversations,蛮有意思的。其实也就是找到关联资讯中的许多热门链接,然后把推荐过和评论过核心链接的信息条目称为N people discussed the story,整个story就称为Conversation,其实就是热门链接推选。
这样确实能够把关联资讯中的噪音去除,并且让相对更重要的资讯排在最前面。和OneRiot是一样的。
2、
它还可以在每一个story中进行情感趋势分析,但需要付费成为会员才可以查看。估计是计算整体趋势,个人认为这种统计方式很不靠谱。我一般都强调针对“锚”计算情感趋势,否则无的放矢,易于失真。
3、
它可以给出关联资讯中不同social sites占多大比例,并针对不同sites画出不同的提及次数趋势曲线。
意义不大。但也算是一种观察维度。
二、Ellerdale的启示
ellerdale trends处理的数据是海量的,Twitter、Wikipedia、还有许多各种类型的数据源。Ellerdale宣称擅长快速索引high-volume data feeds,其中一个数据源就是Twitter的firehose。为此他们开发了一个容错的分布式数据库。
它不仅仅是搜索引擎,它的语义引擎创建了一个话题数据库(它能检测到哪些是Topic,它甚至有这样的Topic:United States Senate 和 United States presidential election 2008),并把Topic划分为people、sports、films、politics等分类。
它和ubervu一样,都能提供up-to-the-second的分析能力(即基于搜索数据之上的实时分析),几乎没有滞后。
你会发现它和ubervu都有一个共同的目标:试图更快更好地理解the information and opinions that people are sharing。
Topics包罗万象
对于一个机器自动检测出来的topic,比如Jessica Alba,将进入topics分类列表,它的页面会依次列出:
- Wiki的条目解释:提供一个条目解释。同时还会列出N个Wiki的链接,如Freebase、Wikipedia等。而且对于不同领域的人物,链接类型会不同。如好莱坞明星,会列出几个知名电影网站的人物条目链接。比如政治人物Sarah Palin会列出她的Twitter帐号链接。对于John McCain甚至给出了纽约时报的人物链接和他的两个官方网站链接。
- 关联的其他topic:比如Halle Berry,大致是同一领域的人、组织等。
- message stream:这主要是twitter数据流。缺点是没有合并重复,甚至是没有合并同一个id发出的重复消息,导致某一个id刷屏。
- message history:一个曲线趋势图。
- top articles:关联资讯。会标明Rank级别。以及有几个mentions,可能指的是Twitter中提及此链接的次数吧。貌似Rank和Mentions次数之间有正比关系。
分类频道的榜单模式
Live Trending会列出某个领域的Top Ten人物,每一个排名都会列出三个Topic,如Films的。
每个Topic右侧都会列出一个数字,如:3,647 mph,貌似是指每小时有多少条关联articles或messages。
对于Topics的聚合、整理和分析,不少语义应用都做过,比如说:
Daylife的Connection Engine,如伍兹,如Johnny Depp;
参考文献:
RWW的《Beyond Twitter Search: Semantic Analysis of the Real-Time Web》;
Kosmix的《Web 3.0 and Semantic Search》;
郑昀的《[语义]情感分析方向近况·0908》。