会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
大将独尊者
c#
博客园
首页
新随笔
联系
订阅
管理
2014年5月23日
转simhash与重复信息识别
摘要: simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”…… 随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
阅读全文
posted @ 2014-05-23 16:28 大江
阅读(946)
评论(0)
推荐(0)
编辑