大中华之事件监测

郑昀@Big Event 20100117

 

什么是事件监测?

简单地说,就是网络中正在讨论的热门事件,比如各种“门”,被机器智能实时捕获。

它的最好情况是,当事件刚刚被一些新闻敏感的人群讨论时,当还没有进入公众视线时,还处于蛰伏期,就已经被事件监测引擎捕获。

 

事件监测应该反映出什么?

它应该可以告诉你:

都有哪些消息在讨论这个事件,最好是实时聚合的;

哪些人在事件中出现,或被人多次提及;

人们提及这些人时,都是喜欢、愤怒、沮丧还是不屑,表露出什么样的情感趋势;

谈论此事件时,流传最广、最受欢迎的评论都有哪些,你可以更有效地找到精彩评论或文章;

有关联图片和视频聚合更好;

能让你快速地了解事件的背景;

你可以通过RSS或微博等推送手段订阅这个事件的进展;

你可以加入这个事件Group讨论,让你的消息也显示在对应的Group中;

。。。

Big Event

玩聚HOT——Big Event

实际上玩聚HOT这个事件监测引擎早在09年6月就基本写好了,当框架大致定下来时,一个重要数据来源饭否——牺牲了,另一个数据校验来源FriendFeed也基本不可用了,于是停滞了下来。

直到新浪微博的鹊起,这个引擎才又有了可操作的余地。

正如Big Event的中文口号“即将引爆网络的大事件”所言,引擎就是要追逐那些大事件,那么显然微博客是最好的数据来源。由于事件监测需要覆盖全网热点,所以单凭Twitter中文社群无法承载这个校验目的。新浪微博的广泛用户群,相对更多样的话题性,让事件自动监测成为可能。

 

思路

引擎如何找到一个事件,如何让事件能够自描述,标题如何确定?

 

一种常见思路是广泛收集最近N小时内发布的微博、帖子和博客文章,从中分析词频较高的词组,这些词就是热榜,能反映一定趋势,正如Twitter的Trends所示。

这种思路的优点是能快速、实时地计算,缺点是机器切分的一个一个零散的中文单词不能自描述,人们看到之后难以理解到底是什么意思指代什么事物,即使是英文词组甚至Twitter HashTag,也存在这个问题。

 

另一种思路是直接把最近N小时内发布的微博、帖子和博客文章聚类,综合运用层次聚类、特征向量空间等算法,让文章自动分组为一个一个的热点,每一个都可能对应一个事件。

这个思路我们最开始玩过,还不错。我们管它叫“热点自动发现”算法。

它的优点是覆盖面广,大大小小的热点基本都能触碰到,配合分类算法,可以输出很多频道的热点。缺点嘛,一是计算量太大,计算周期长;二是不容易确定一个聚类是不是对应真实的社会事件;三,文章质量无法评估,难以做到精彩文章优先推荐;最后,作为新生事物的微博,由于文本过短,根本无法与帖子和博文进行相似性计算。

 

我们这次选择的是类似SEOer的思路。他们观察搜索引擎热榜,从上升最快的关键词榜单上寻找他们需要制作的网页主题。这样,制作的网页内容越丰富,关键词堆积越多,越早发布,就可以保证在搜索结果中占据一个好位置。

这一连串的人的动作是可以被机器智能模拟逼近的。

 

热门搜索关键词的优点

它不像机器自动切出来的词那么僵化,搜索关键词是人是成百上千的用户输入或采纳的,它本身往往有很强的自描述性。比如热词“章子怡 泼墨门”或者“Google 退出中国”,你看到就知道什么意思。

 

交叉验证哲学

SEOer的思路,加上我以前不断谈的交叉验证模式,就是事件监测引擎的雏形。

 

这里还有一个问题,人们搜索一个事件往往用到很多种关键词,比如你点击谷歌退出中国事件的页面,看左侧的关联热词:

  • 谷歌解散
  • 谷歌中国正式解散
  • 谷歌退出中国原因
  • 谷歌关闭
  • 谷歌退出
  • 谷歌中国解散
  • 谷歌退出中国市场
  • 谷歌退出中国
  • 谷歌中国关闭

这么多热词怎么才能合并到一个事件身上呢?你可能会说这些热词中都有“谷歌”啊。那好,我们再看一个例子

  • 清华作业门
  • 清华c语言门
  • c语言门 女生

光靠热词本身是不可能做到完美合并的。

这就要用到我常谈的《语义与特征》的哲学了,:D。

 

情感趋势计算

我曾经在《情感分析方向近况·0908》讲述了国外Sentiment Analysis的进展。在事件监测里,也能自动提炼事件中人们谈论最多的人名,并计算提到这些名字时的情感趋势,以及提到他们时都常用哪些情感词。比如,你可以点击孙云丰谈谷歌事件,查看左侧栏人们是如何看待孙云丰的。

 

如何确定哪些消息更精彩更重要?

就像锐推榜的哲学一样,相似消息的重复次数越多,它的重要性越高,这就用到了信息指纹的概念。评论数、转发数当然也是一个参考因素。为了让旧资讯快速离开用户的视线,还要再加上发布时间的新鲜因素。

这样,由于每个事件中,关联资讯是按照重要性(混合了时间因素)排序的,用户可以看到最有趣最受欢迎的新鲜资讯在最前面。更多思路请参考我写的《Social Media排序算法的四种模式》。

 

大致的框架就是这样。玩聚HOT还在内测中(所以暂不提供RSS和微博帐号),不排除打散逻辑重新组合,但基本哲学应该就是这些了。

zhengyun 北京报道

posted @ 2010-01-18 03:36  老兵笔记  阅读(3498)  评论(0编辑  收藏  举报