摘要: 计算文档的相似性,通常使用Jaccard系数,但是在大数据下Jaccard计算复杂度很高,由此出现了MinHash方法来近似计算。更高效的方法为LSH。 阅读全文
posted @ 2022-12-01 23:50 倦鸟已归时 阅读(330) 评论(0) 推荐(0) 编辑