Hyperloglog基数统计

基数（不重复的元素）

统计不重复的元素个数，可以接受误差

Redis Hyperloglog 基数统计的算法

优点：占用内存是固定的，2^64不同的元素的技术，只需要12KB内存，如果要从内存角度比较的话首选Hyperloglog

网页的UV（一个人访问一个网站多次，但还是算作一个人）

传统方式：set保存用户的id，然后可以统计set中的元素数量作为标准判断

此方式如果保存大量的用户id，就会比较麻烦！我们目的是为了计数，而不是保存用户id

0.81%错误率统计UV任务，可以忽略不计

PFadd key element.... 创建第一组元素

pfcount key 统计key中元素的基数数量

pfcount key3 key1 key2... 合并两组key1 key2 （并集）到key3中

允许容错，可以使用Hyperloglog

不允许容错，就使用set或者自己的数据类型

posted @ 2022-03-22 16:43 doremi429 阅读(50) 评论(0) 收藏举报

刷新页面返回顶部

doremi429