redis数据类型HyperLogLog的使用
最近遇到一个业务需求,要统计一张mysql大表每天/每周/每月的记录量(该表每天产生的记录量在好几百万)。当然有朋友会说,select count(1) from xxx 不就完事了吗?
确实,但是大表做count非常耗时,如果db服务器配置也不咋地,直接就跑跪了。
于是想到了redis里的HyperLogLog,这种数据类型一般很少用,但是计算count是它的强项,性能极快(具体原理可参考文末文章)
一、基本用法
1.1 向HyperLogLog中添加元数
pfadd key名 数据1 数据2 ...
如上图,可以用 "表名_天"做为key,然后把每行记录的主键Id扔进去,如果操作执行成功,会返回1
1.2 统计HyperLogLog中的基数(即:去除重复后的元素个数)
pfcount key名
可以看到,返回了数字6,自动将重复元素3 4 做了合并去重。
1.3 合并多个HyperLogLog
pfmerge 新key名 key1 key2 ...
假如我们已经有了 table_20200825 , table_20200826 这2个key,想统计它们的元素之和,就可以用pfmerge合并这2个HyperLogLog
注意:合并时,如果2个HyperLogLog中有重复元素,新Key会自动合并去重。
二、大表count思路
学习了HyperLogLog的用法,回到最开始的场景,怎么实时把大表的ID都扔到HyperLogLog里呢?
可以借助canal工具,订阅mysql的binlog,实时消费mq,扔到redis里。
链路:
mysql -> canal -> mq -> redis
优点:对业务系统0侵入性,也没有额外的性能开销。
不过,世界上并没有银弹,HyperLogLog也并非完美无缺,它的统计值是有一定误差的,并非1个不漏,对于计算日活/海量数据定性分析,这些是没问题的,但是如果用于统计具体金额之类的,就不建议使用了。
另外,对于已经添加进去的元素,没办法删除,没有类似pfdelete的命令。
参考文章:
https://www.jianshu.com/p/55defda6dcd2
出处:http://yjmyzz.cnblogs.com
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。