2017 年 4月 13 日随笔档案 - zhouzhou0615

2017年4月13日

(转)预估大数据量下UV的方法

摘要：在实际应用中，我们经常碰到这种情况，即要统计某个对象或者事件独立出现的次数。对于较小的数据量，这很容易解决，我们可以首先在内存中对序列进行排序，然后扫描有序序列统计独立元素数目。其中排序时间复杂度为O(n*log(n))，扫描时间复杂度为O(n)，所以总的时间复杂度为O(n*log(n))。当内存非阅读全文

posted @ 2017-04-13 17:50 zhouzhou0615 阅读(2014) 评论(0) 推荐(0)

（转）最小Hash和局部敏感Hash

摘要：转自：http://www.07net01.com/2015/08/907327.html 在数据挖掘中，有一个比较基本的问题，就是比较两个集合的相似度。关于这个问题，最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素，进而统计这两个集合中相同元素的个数。但是，当这两个集合里的元素数量非常庞大阅读全文

posted @ 2017-04-13 17:09 zhouzhou0615 阅读(315) 评论(0) 推荐(0)

sunshisonghit

(转)预估大数据量下UV的方法

（转）最小Hash和局部敏感Hash

导航

公告