玩聚榜单-仿照Technorati的Popular频道
zhengyun 20070726
仿照Technorati的 Popular频道,电影、音乐、书籍的博客影响力榜单终于在玩聚上体现了出来,以后每天都可以看到最新的榜单自动计算并展现了。
Technorati的做法是,计算过去24小时内,计算链接指向IMDB某部作品的数量,从而获知电影、音乐、博客、视频、新闻的流行程度。
而我们在中国嘛,所以没有什么人会在博文中说自己看了某部电影,竟然会贴出指向豆瓣或者VeryCD的链接,所以只能通过语义计算啦。
有人问了,那整理一个电影、音乐名列表不就完了,然后自己去做博客搜索,这需要什么语义技术啊?要是这么easy,我们还玩什么文本挖掘啊?就是要一切无风自动,文本挖掘引擎自己从每天抓取到的数以万计篇文章中自动识别出潜在的电影、音乐/歌曲、书籍,而不需要人工告诉机器哪些词语是电影,并自动统计出博客引用次数。
要不然,今日排名电影第四名的王晓峰出品《十面埋妇》如何上榜?这就靠机器自己了:
计算原理:
草根世界过去的24小时内在谈论哪些热门电影、音乐或书?下面影响力榜单按照过去24小时监测到的博客提及次数排序。
首页最下方是三个榜单:
点击"更多Movies",将来到"玩聚影响力榜单 / Top Movies":
http://www.onejoo.com/pop/movies/
音乐、歌曲的榜单:
http://www.onejoo.com/pop/music/
书籍榜单:
http://www.onejoo.com/pop/books/
书籍算得不是太好,稍后会进一步训练机器,学习识别哪些是谈论读书的文字。
郑昀 20070726 玩聚