redis简单使用HyperLogLog

一 HyperLogLog 介绍

Redis 在 2.8.9 版本添加了 HyperLogLog 结构。
在 Redis 中，HyperLogLog 是它的一种高级数据结构，其功能结构类似于Set；
HyperLogLog 经常使用于系统数据的不精确去重，标准误差为0.81%；
每个 HyperLogLog 键只需要12 KB 内存，就可以统计 2^64 个不同的元素；
HyperLogLog 提供了两个指令用于计数统计，pfadd 为添加数据；pfcount 为统计数据个数；

pfadd 指令来源于 Philippe Flajolet 发明了 HyperLogLog 这种数据结构，所以pf就是指其姓名的缩写；我们之前说过 HyperLogLog 这种数据结构能起到不精确确的去重效果，但必须是亿级流量的数据以上，否则就是浪费空间，因为每个键需要占据12kb的存储空间；

使用示例如下

127.0.0.1:6379> pfadd abin zk1
(integer) 1
127.0.0.1:6379> pfadd abin zk2
(integer) 1
127.0.0.1:6379> pfcount abin
(integer) 2
127.0.0.1:6379> pfadd abin zk3
(integer) 1
127.0.0.1:6379> pfcount abin
(integer) 3
127.0.0.1:6379>

HyperLogLog 还提供了 pfmerge 指令用于合并key，的到的结果是去重后的并集；

二使用场景

统计注册 IP 数
统计每日访问 IP 数
统计页面实时 UV 数
统计在线用户数
统计用户每天搜索不同词条的个数

三 java实现

java实现非常简单，使用jedis方式实现代码如下；使用 pfadd指令添加 1w条数据，最终计算的结构是 10055 条；多了 55条，可见统计是存在一些误差，但在大数据情况下一些误差是完全更够接收；

 	@Test
    public void testHyperLogLog(){
        // 插入1W条数据
        Jedis jedis = jedisUtil.getJedis();
        for (int i=0; i < 10000; i++){
            jedis.pfadd("abin","zk"+i);
        }
        long abinCount = jedis.pfcount("abin");
        //10055
        System.out.println(abinCount);
        jedis.close();
    }

四 HyperLogLog 原理

HyperLogLog 原理实现非常复杂，但使用方式非常简单；我对这类算法的兴趣也不是很高，有兴趣的可以参考如下文章进行学习

https://juejin.im/post/6844903785744056333

https://zhuanlan.zhihu.com/p/58519480

五思考

HyperLogLog 与布隆过滤器都起到了去重效果，它们之间有什么区别？

redis教程

posted @ 2020-09-24 14:02 知识追寻者阅读(288) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：知识追寻者
园龄： 5年2个月
粉丝： 7
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

知识追寻者[同公众号]

公众号：知识追寻者，谢谢关注

redis简单使用HyperLogLog

一 HyperLogLog 介绍

二使用场景

三 java实现

四 HyperLogLog 原理

五思考

redis教程

公告

搜索

常用链接

最新随笔

随笔分类 (209)

随笔档案 (210)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

知识追寻者[同公众号]

公众号：知识追寻者，谢谢关注

redis简单使用HyperLogLog

一 HyperLogLog 介绍

二 使用场景

三 java实现

四 HyperLogLog 原理

五 思考

redis教程

公告

搜索

常用链接

最新随笔

随笔分类 (209)

随笔档案 (210)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

二使用场景

五思考