基数统计的常用方法

应用场景: 如网站每个链接的用户点击数

传统方法:

      1.基于B-Tree的基数实现. 优点:查找,插入和内存之间非常平衡. 缺点:数据量特别巨大时,内存使用非常可观,而且不能方便的进行合并.

      2.基于bitmap的基数实现. 优点:运算效率非常高,且可以合并. 缺点:使用的内存与基数的上限有关,内存使用和集合数量无关.

基于概率的基数统计:

      1.Linear Counting: 需要内存仅为bitmap的1/10.空间复杂度:O(Nmax)

      2.LogLog Counting:空间复杂度:O(log2(log2(Nmax))). 优点:使用内存小 缺点:基数较小时,误差变大

      3.HyperLogLog Counting & Adaptive Counting . AC是LC和LLC的简单组合

posted on 2016-04-19 14:52  不屈的心  阅读(690)  评论(0编辑  收藏  举报