摘要: uber全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。 为了解决我们和其他系统中的类似挑战,Uber Engineeri 阅读全文
posted @ 2019-05-31 15:04 bonelee 阅读(975) 评论(0) 推荐(0) 编辑
摘要: 先看看官方文档: MinHash for Jaccard Distance MinHash is an LSH family for Jaccard distance where input features are sets of natural numbers. Jaccard distance 阅读全文
posted @ 2019-05-31 15:03 bonelee 阅读(4653) 评论(0) 推荐(0) 编辑
摘要: from: https://www.cnblogs.com/bourneli/archive/2013/04/04/2999767.html 问题背景 给出N个集合,找到相似的集合对,如何实现呢?直观的方法是比较任意两个集合。那么可以十分精确的找到每一对相似的集合,但是时间复杂度是O(n2)。当N比 阅读全文
posted @ 2019-05-31 14:06 bonelee 阅读(889) 评论(0) 推荐(0) 编辑