谈热文榜的自动去重

郑昀@玩聚SR 20100106

泛Digg式的热文系统需要有重复内容检测机制。

一、Digg的做法

比如Digg在09年6月30日发表了一篇《Dupe Detection Updates Are Here》，指出几点：

通常的重复内容是同一个站点下的同一个Story，只不过链接不同罢了（这在国内论坛很常见，帖子的链接有好多种变换，实际上指向的都是同一个帖子）。此时用文本相似性计算（document similarity algorithm）即可解决。
另一种常见重复是不同网站的同一个（或相似）文章。估计Digg利用自己的search配搭一些参数做搜索，从而快速精确地识别相似的标题和内容。

当你提交给Digg一个链接时，它就已经开始了重复检测，在你填写标题和描述之前。如果它怀疑你可能提交了一个重复文章，那么它会立刻提示你，如下所示：

但旋即有人撰文《Digg Duplicate Detection Fail 》指出 Digg宣布重复内容检测的两篇文章就是重复上榜：

可见，人主观上认为的内容重复，和机器模拟判定（复杂的算法也可以很好逼近，比如论文抄袭检测系统，但对于Digg来说，肯定要求算得快且准），还是有些距离的。

二、国内的一些问题

国内总是有特殊情况。

比如转贴满天飞。而且多半是转载到大站或名博的文章被推荐被分享的几率远远大于原创站点。

比如国人架设的WordPress的RSS Feed，总是先输出一个中文编码（就是把博文标题URLEncode了）的链接，然后同一篇文章隔一会儿又输出一个英文链接。于是经常两个链接都有人推荐和分享。

比如新浪博客，很多人（包括名博们）经常反复编辑同一篇文章，导致编辑器把同一篇文章保存为N多份，导致同一篇博文一发就是三五篇，链接还都不同，崩溃啊。

比如cnBeta，转贴第三方的文章后，输出的RSS是摘要输出。此时，大家往往分享的是它。这带来两个问题：一，摘要很短，不足以与原文判定是否重复；二，cnBeta投递者往往会修改原文标题，要么加几个字，要么加助词或符号（估计是SEO的需要）。

比如Solidot，以点评夹带原文摘录的方式发布。也是同样的问题：文字内容很短，还加了编辑的文字，更加影响相似性计算；标题往往与原文不同。

比如一些名博转载别人文章时，总会在最前面加上自己的点评，这样就略微影响文本相似性计算。

三、SR的做法

SR的热文一开始并没有加入去重功能，一个是认为问题不大，又不是人为提交，不存在Spammer问题；一个是不好确定原创者。（SR不是Digg的人工Digg方式，而是主动收集Google Reader/Twitter/Delicious/等用户的推荐、分享和收藏行为，进行统计，再加入一些简单逻辑，从而决定哪些文章或链接可以上热榜。）

后来确实有很多人反映这个问题，同一篇文章很有可能重复上榜三、四次，比如谷奥发布一次，cnBeta转载一次，Solidot点评一次，keso’s view一次，煎蛋转载一次等等。

现在的重复内容检测逻辑是：

首先对文章内容较长的，是基于Shingle的重复检测办法；

其次对文章很短的，比如cnBeta摘要输出的RSS内容，比如Solidot，比如南方报业旗下的RSS内容，先提取标签，然后计算文章的标签相似度。

这两种办法算起来很快，但未必总能检测出来重复，继续积累吧。

郑昀北京报道