Redis HyperLogLog

HyperLogLog

应用场景

现开发维护一个大型的网站，需要统计每个网页每天的UV和PV数据，现在需要你来开发这个统计模块，你会如何实现？

如果统计PV非常好办，给每个网页设置一个独立的Redis计数器，这个计数器的key加上当天的日期,这样请求一次，incrby一次,这样最终可以统计出所有的PV数据。

但是UV不一样，它要去重，同一用户一天之内的多次访问，只能计数一次，这就要求每个网页请求都需要带上用户的ID，无论是登陆用户还是未登录用户都需要各一个唯一的ID标识。

或许你想到一个简单的方案，那就是每个页面一个独立的set集合存储所有的当天访问此页面的用户ID。当一个请求过来时，我们使用sadd将用户的ID塞进去，通过scard可以取出这个集合的大小，这个数字就是这个页面的UV数据。没错，这是一个非常简单的方案。

但是，如果这个页面访问量非常大，如果一个爆款页面几千万的UV，这时需要一个很大的set集合来统计，这就非常浪费空间了。如果这样的页面很多，那需要的的存储空间是惊人的。为这样的一个去重功能浪费这么多的存储空间值得么？其实老板需要的数据又不需要太精确，105w和106w这两个数字对老板来说没有太大的区别，因此有没有更好的解决方案呢？

Redis提供了HyperfLogLog数据结构就是用来专门解决这类统计问题的。HeperLogLog提供不精确的去重计数方案，标准误差在0.81%，这样精度的已经可以满足上面的UV统计需求了。

使用方法

HeperfLogLog提供了两个指令pfadd和pfcount，从字面意义很好理解，一个是增加计数，一个是获取计数。pfadd用法和集合set的sadd的用法一样，来一个用户ID，直接将用户ID塞进去就是。 pfcount和scard的用法一样，直接获取计数。

127.0.0.1:6379> pfadd codehole user1
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 1
127.0.0.1:6379> pfadd codehole user2
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 2
127.0.0.1:6379> pfadd codehole user3
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 3
127.0.0.1:6379> pfadd codehole user4
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 4
127.0.0.1:6379> pfadd codehole user5
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 5
127.0.0.1:6379> pfadd codehole user6
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 6
127.0.0.1:6379> pfadd codehole user7 user8 user9 user10
(integer) 1
127.0.0.1:6379> pfcount codehole
(integer) 10

pfadd 这个 pf是什么意思呢？

它是HyperLogLog这个数据结构的发明人 Philippe Flajolet的首字母缩写。

pfmerge 适合什么场合用?

HyperLogLog提供了第三个指令pfmerge，用于将多个pf计数值累加在一起形成一个新的pf值。

比如在某个网站中我们有两个内容差不多的页面，运营说需要这两个页面的数据进行合并。其中页面的UV访问量也需要合并，那这个时候pfmerge就可以派上用场了。

注意事项

HyperLogLog这个数据结构不是免费的，它是需要占据一定12k的存储空间，所以它不适合统计单个用户的相关数据。如果你的用户上亿，可以算一算，这个空间成本是非常惊人的，但是相比set存储方案，HyperLogLog所用的空间真的是可以用千斤对比四两来形容。

因为Redis对HyperLogLog的存储进行了优化，在计数比较小时，它的存储空间采用稀疏矩阵存储，空间占用很小，仅仅在计数慢慢变大，稀疏矩阵占用空间超过了阀值时才会一次性转变为稠密矩阵，才会占用12k的空间。

HyperLogLog实现原理

给定一系列的随机整数，我们记录下低位连续零位的最大长度k，通过这个k值可以估算出随机数的数量。首先不问为什么，编写代码做一个实验，观察下随机整数的数量和k值的关系。

import math
import random

# 算低位零的个数
def low_zeros(value):
    for i in range(1, 32):
        if value >> i << i != value:
            break
    return i - 1

# 通过随机数记录最大的低位零的个数
class BitKeeper(object):
    def __init__(self):
        self.maxbits = 0
    def random(self):
        value = random.randint(0, 2**32 -1)
        bits = low_zeros(value)
        if bits > self.maxbits:
            self.maxbits = bits
 
class Experiment(object):
    def __init__(self, n):
        self.n = n
        self.keeper = BitKeeper()
        
    def do(self):
        for i in range(self.n):
            self.keeper.random()
    def debug(self):
        print(self.n, %.2f % math.log(self.n, 2), self.keeper.maxbits)
        
for i in range(1000, 100000, 100):
    exp = Experiment(i)
    exp.do()
    exp.debug()

通过这个实验可以发现K和N的对数之间存在显著的线性相关性：

\[N = 2 ^ k \]

如果N介于2^k 和2^(k+1) 之间，用这种方式估值的值都等于2^k，这明显是不合理的。这里采用BitKeeper，然后进行加权估计，就可以得到一个比较准确的值。

代码中分了1024个桶，计算平均数使用了调和平均(倒数的平均)。普通的平均法可能因为个别离群值对平均结果产生较大的影响，调和平均可以有效平滑离群值的影响。

\[avg = \frac{(3 + 4 + 5 + 104)} {4} = 29 \]

\[avg = \frac{4}{(\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\frac{1}{104})}=5.044 \]

pf的内存占用为什么是12k?

我们在上面的算法中使用了1024个桶进行独立计数，不过在Redis的HyperLogLog实现中用到的是16384个桶，也就是2^14，每个桶的maxbits需要6个bits来存储，最大可以表示maxbits=63，于是总共占用的内存就是2^14*6/8 = 12k字节。

posted @ 2020-08-31 11:27 phper-liunian 阅读(207) 评论(0) 编辑收藏举报

刷新页面返回顶部

似水流年

Redis HyperLogLog

HyperLogLog

应用场景

使用方法

HyperLogLog实现原理

公告