2017年4月13日

(转)预估大数据量下UV的方法

摘要: 在实际应用中,我们经常碰到这种情况,即要统计某个对象或者事件独立出现的次数。对于较小的数据量,这很容易解决,我们可以首先在内存中对序列进行排序,然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n)),扫描时间复杂度为O(n),所以总的时间复杂度为O(n*log(n))。当内存非 阅读全文

posted @ 2017-04-13 17:50 zhouzhou0615 阅读(1985) 评论(0) 推荐(0) 编辑

(转)最小Hash和局部敏感Hash

摘要: 转自:http://www.07net01.com/2015/08/907327.html 在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大 阅读全文

posted @ 2017-04-13 17:09 zhouzhou0615 阅读(305) 评论(0) 推荐(0) 编辑

导航