会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
shakerChann
Stay Hungry. Stay Foolish.
首页
新随笔
联系
订阅
管理
2024年7月13日
simhash&hamming distince
摘要: simhash&hamming distince simhash 是一种长文本的查重算法 SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量转化(加权)成低位的hash,通过算出两个海明距离来确定两篇文章的相似度,海明距离越小,相似度越低,一般海明距离为3就代表两篇文章相
阅读全文
posted @ 2024-07-13 16:35 shakerChann
阅读(33)
评论(0)
推荐(0)
编辑