摘要: 现在的重复内容检测逻辑是: 首先对文章内容较长的,是基于Shingle的重复检测办法; 其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。 这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。 阅读全文
posted @ 2010-01-07 01:00 老兵笔记 阅读(2710) 评论(0) 推荐(1) 编辑