redis数据类型HyperLogLog的使用

最近遇到一个业务需求,要统计一张mysql大表每天/每周/每月的记录量(该表每天产生的记录量在好几百万)。当然有朋友会说,select count(1) from xxx 不就完事了吗?

确实,但是大表做count非常耗时,如果db服务器配置也不咋地,直接就跑跪了。

于是想到了redis里的HyperLogLog,这种数据类型一般很少用,但是计算count是它的强项,性能极快(具体原理可参考文末文章)

一、基本用法
1.1  向HyperLogLog中添加元数
pfadd key名 数据1 数据2 ...

如上图,可以用 "表名_天"做为key,然后把每行记录的主键Id扔进去,如果操作执行成功,会返回1

 

1.2 统计HyperLogLog中的基数(即:去除重复后的元素个数)
pfcount key名

可以看到,返回了数字6,自动将重复元素3 4 做了合并去重。

 

1.3  合并多个HyperLogLog

pfmerge 新key名 key1 key2 ...

假如我们已经有了 table_20200825 , table_20200826 这2个key,想统计它们的元素之和,就可以用pfmerge合并这2个HyperLogLog

 注意:合并时,如果2个HyperLogLog中有重复元素,新Key会自动合并去重。

 

二、大表count思路

学习了HyperLogLog的用法,回到最开始的场景,怎么实时把大表的ID都扔到HyperLogLog里呢?

可以借助canal工具,订阅mysql的binlog,实时消费mq,扔到redis里。

链路:
mysql -> canal -> mq -> redis 
优点:对业务系统0侵入性,也没有额外的性能开销。

不过,世界上并没有银弹,HyperLogLog也并非完美无缺,它的统计值是有一定误差的,并非1个不漏,对于计算日活/海量数据定性分析,这些是没问题的,但是如果用于统计具体金额之类的,就不建议使用了。

另外,对于已经添加进去的元素,没办法删除,没有类似pfdelete的命令。

 

参考文章:

https://www.jianshu.com/p/55defda6dcd2

https://mp.weixin.qq.com/s/AvPoG8ZZM8v9lKLyuSYnHQ

https://zhuanlan.zhihu.com/p/77289303

posted @ 2020-08-25 22:21  菩提树下的杨过  阅读(528)  评论(0编辑  收藏  举报