会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
君子博学而日参省乎己 则知明而行无过矣
博客园
首页
新随笔
联系
订阅
管理
公告
2015年5月10日
#
simhash与Google的网页去重
摘要: 前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向...
阅读全文
posted @ 2015-05-10 19:07 刺猬的温驯
阅读(296)
评论(0)
推荐(0)
编辑
Powered by:
博客园
Copyright © 2024 刺猬的温驯
Powered by .NET 9.0 on Kubernetes