2010 年 1月 7 日随笔档案 - 老兵笔记

老兵笔记-郑昀

参与软件开发这些年来，不断地遇到新领域新知识点，屡屡感受到新进入者的迷惑和彷徨，所以对遇到的每一个问题都详细记录问题现象、解决思路以及解决方案，并在blog中留下印迹，以备他日有心人google之而知之。
你们的新手之痛，你们的新业务发展之初的思路混沌，我都感同身受，所以欢迎和我一起探讨，知无不言言无不尽。

订阅
管理

2010年1月7日

谈热文榜的自动去重

摘要：现在的重复内容检测逻辑是：首先对文章内容较长的，是基于Shingle的重复检测办法；其次对文章很短的，比如cnBeta摘要输出的RSS内容，比如Solidot，比如南方报业旗下的RSS内容，先提取标签，然后计算文章的标签相似度。这两种办法算起来很快，但未必总能检测出来重复，继续积累吧。阅读全文

posted @ 2010-01-07 01:00 老兵笔记阅读(2710) 评论(0) 推荐(1) 编辑

公告