2019 年 5月 8 日随笔档案 - DUDUDA

2019年5月8日

摘要：项目背景: 根据用户特征，寻找相似用户；最开始想法：找到用户特征，使用余弦相似度寻找相似用户；这个想法很base，不过会遇到一个非常大的问题，就是我这个项目将来是要覆盖全站用户，上亿用户的情况下，两两计算相似度，这个算法的复杂度是n的平方，是很大的，现在的计算资源是不支持的。在这个时候，我在知阅读全文

posted @ 2019-05-08 12:55 DUDUDA 阅读(503) 评论(0) 推荐(0) 编辑

LSH算法

摘要： LSH算法如果一篇文档由100维单词组成，LSH做的事情就是通过对维度分隔，从而对不同文档进行分桶。如果我准备对100维度分成5个部分，每个部分对应20个维度。序列号为1，2，3，4，5 按照顺序来对比，如果1号中，两个文档的特征是一样的，就分到一个桶里面，如果不一样，就继续看2号，直到5完成。阅读全文

posted @ 2019-05-08 12:54 DUDUDA 阅读(1567) 评论(0) 推荐(0) 编辑

minhash算法

摘要： minhash算法大数据量计算相似度的时候，我们使用minhash（最小哈希）进行降维，使用LSH算法进行近似查询。相似性的度量：使用雅卡尔系数，交集数量除以并集数量。以文档为例，组成成分为单词。我们将单词量化为数值，那么一个文档的构成可以有一个数值单词表构成，0表示存在，1表示不存在。我阅读全文

posted @ 2019-05-08 12:53 DUDUDA 阅读(542) 评论(0) 推荐(0) 编辑

DUDUDA

公告