实时Web数据的实时分析

郑昀@玩聚SR 20100306

    Real Time Web大多指对Twitter为首的微博客海量数据进行快速索引,搜索结果实时滚动显示。快速索引,比拼的是索引多久更新一次,5分钟、1分钟乃至10秒,比如对任意输入的查询关键词,都能看到1分钟内发布的微博客消息(微博消息足够短,有机会快速索引)。

    但是实时分析就不那么容易了。实时分析大致有几种:

  • 趋势分析:不同网站对查询关键词每日提及次数变化趋势。Ubervu做得不错,如Chile
  • 热门链接分析:把关联结果中相对热门、相对重要的链接挑出来,单独展示,可以按时间排序或按重要性排序。OneRiot比较擅长这一点,如搜索Chile。热门链接的甄选一般都是依据Twitter等微博客消息的链接分享次数。
  • 语义分析:
    • 情感趋势分析:即Sentiment analysis 或 opinion mining。Big Event这一点做得也不错,诸如:美团网页面左侧的王兴饼图,韩寒PK刘谦中的刘谦和韩寒两个饼图。ubervu则对每一个conversation都做了情感分析,并画出了情感变化趋势曲线。
    • 关联分析::
      • 与此查询关键词有关联的其他搜索建议词
      • 关联的或相近的Topics或者叫做Entities:这个DaylifeEvri做得都不错。

 

    除了OneRiot外,下面再举两个实时分析的Real Time Search Engine网站:

一、ubervu的启示

    ubervu自称是Real-time Social Media Analytics,颇有一些功能。 

1、

把某一个关键词下的数据整合为一堆Conversations,蛮有意思的。其实也就是找到关联资讯中的许多热门链接,然后把推荐过和评论过核心链接的信息条目称为N people discussed the story,整个story就称为Conversation,其实就是热门链接推选。

这样确实能够把关联资讯中的噪音去除,并且让相对更重要的资讯排在最前面。和OneRiot是一样的。

2、

它还可以在每一个story中进行情感趋势分析,但需要付费成为会员才可以查看。估计是计算整体趋势,个人认为这种统计方式很不靠谱。我一般都强调针对“锚”计算情感趋势,否则无的放矢,易于失真。

3、

它可以给出关联资讯中不同social sites占多大比例,并针对不同sites画出不同的提及次数趋势曲线。

意义不大。但也算是一种观察维度。

ubervu
Original Image

 

二、Ellerdale的启示

    ellerdale trends处理的数据是海量的,Twitter、Wikipedia、还有许多各种类型的数据源。Ellerdale宣称擅长快速索引high-volume data feeds,其中一个数据源就是Twitter的firehose。为此他们开发了一个容错的分布式数据库。

    它不仅仅是搜索引擎,它的语义引擎创建了一个话题数据库(它能检测到哪些是Topic,它甚至有这样的Topic:United States SenateUnited States presidential election 2008),并把Topic划分为people、sports、films、politics等分类。

    它和ubervu一样,都能提供up-to-the-second的分析能力(即基于搜索数据之上的实时分析),几乎没有滞后。

    你会发现它和ubervu都有一个共同的目标:试图更快更好地理解the information and opinions that people are sharing。

 

Topics包罗万象

    对于一个机器自动检测出来的topic,比如Jessica Alba,将进入topics分类列表,它的页面会依次列出:

  • Wiki的条目解释:提供一个条目解释。同时还会列出N个Wiki的链接,如Freebase、Wikipedia等。而且对于不同领域的人物,链接类型会不同。如好莱坞明星,会列出几个知名电影网站的人物条目链接。比如政治人物Sarah Palin会列出她的Twitter帐号链接。对于John McCain甚至给出了纽约时报的人物链接和他的两个官方网站链接。
  • 关联的其他topic:比如Halle Berry,大致是同一领域的人、组织等。
  • message stream:这主要是twitter数据流。缺点是没有合并重复,甚至是没有合并同一个id发出的重复消息,导致某一个id刷屏。
  • message history:一个曲线趋势图。
  • top articles:关联资讯。会标明Rank级别。以及有几个mentions,可能指的是Twitter中提及此链接的次数吧。貌似Rank和Mentions次数之间有正比关系。

http://images.cnblogs.com/cnblogs_com/zhengyun_ustc/37340/o_ellerdale%2002.jpg

分类频道的榜单模式

    Live Trending会列出某个领域的Top Ten人物,每一个排名都会列出三个Topic,如Films的。

    每个Topic右侧都会列出一个数字,如:3,647 mph,貌似是指每小时有多少条关联articles或messages。

http://images.cnblogs.com/cnblogs_com/zhengyun_ustc/37340/o_ellerdale%2001.jpg

对于Topics的聚合、整理和分析,不少语义应用都做过,比如说:

Daylife的Connection Engine,如伍兹,如Johnny Depp

Evri,如史蒂夫乔布斯,如iPad

 

郑昀@玩聚RT 北京报道

参考文献:

RWW的《Beyond Twitter Search: Semantic Analysis of the Real-Time Web》;

Kosmix的《Web 3.0 and Semantic Search》;

郑昀的《[语义]情感分析方向近况·0908》。

posted @ 2010-03-06 21:53  老兵笔记  阅读(8751)  评论(0编辑  收藏  举报