会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
往事如风
会当临绝顶,一览众山小
首页
新文章
联系
管理
订阅
2014年8月17日
抓取之近似网页过滤
摘要: 抓取的网页内容中,有大部分会是相似的,抓取时就要过滤掉,开始考虑用VSM算法,后来发现不对,要比较太多东西了,然后就发现了simHash算法,这个算法的解释我就懒得copy了,simhash算法对于短数据的支持不好,但是,我本来就是很长的数据,用上! 源码实现网上也有不少,但是貌似都是同样的,...
阅读全文
posted @ 2014-08-17 22:35 往事如风
阅读(507)
评论(0)
推荐(0)
编辑