会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
xiaoli
博客园
首页
新随笔
联系
管理
订阅
2016年12月26日
海量数据集利用Minhash寻找相似的集合【推荐优化】
摘要: MinHash 首先它是一种基于 Jaccard Index 相似度的算法,也是一种 LSH 的降维的方法,应用于大数据集的相似度检索、推荐系统。下边按我的理解介绍下MinHash 问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。当N比较小时,比如K级,Jacca
阅读全文
posted @ 2016-12-26 11:46 XiaoliSmile
阅读(2005)
评论(0)
推荐(0)
编辑
公告