会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Loading
阿凡卢
If you never try, you will never know.
博客园
首页
新随笔
联系
订阅
管理
2023年6月27日
局部敏感哈希LSH(SimHash与MinHash)
摘要: SimHash 1.算法思想 假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本去重,这就对算法的效率有着很高的要求。 而局部敏感hash算法可以将原始的文本内容映射为数字(hash
阅读全文
posted @ 2023-06-27 16:46 阿凡卢
阅读(1400)
评论(0)
推荐(0)
编辑
公告