摘要: 项目背景: 根据用户特征,寻找相似用户; 最开始想法:找到用户特征,使用余弦相似度寻找相似用户; 这个想法很base,不过会遇到一个非常大的问题,就是我这个项目将来是要覆盖全站用户,上亿用户的情况下,两两计算相似度,这个算法的复杂度是n的平方,是很大的,现在的计算资源是不支持的。 在这个时候,我在知 阅读全文
posted @ 2019-05-08 12:55 DUDUDA 阅读(503) 评论(0) 推荐(0) 编辑
摘要: LSH算法 如果一篇文档由100维单词组成,LSH做的事情就是通过对维度分隔,从而对不同文档进行分桶。 如果我准备对100维度分成5个部分,每个部分对应20个维度。序列号为1,2,3,4,5 按照顺序来对比,如果1号中,两个文档的特征是一样的,就分到一个桶里面,如果不一样,就继续看2号,直到5完成。 阅读全文
posted @ 2019-05-08 12:54 DUDUDA 阅读(1567) 评论(0) 推荐(0) 编辑
摘要: minhash算法 大数据量计算相似度的时候,我们使用minhash(最小哈希)进行降维,使用LSH算法进行近似查询。 相似性的度量: 使用雅卡尔系数,交集数量除以并集数量。 以文档为例,组成成分为单词。我们将单词量化为数值,那么一个文档的构成可以有一个数值单词表构成,0表示存在,1表示不存在。 我 阅读全文
posted @ 2019-05-08 12:53 DUDUDA 阅读(542) 评论(0) 推荐(0) 编辑