Redis阅读笔记-整数集合

Redis阅读笔记-整数集合

​ 整数集合(intset)是集合键的底层实现之一, 当一个集合只包含了整数值元素, 并且这个集合的元素数量不多时, Redis就会使用整数集合作为集合键的底层实现。

​ 举个例子,如果创建一个只包含5个元素的集合键, 并且集合中的所有元素都是整数值, 那么这个集合键的底层实现就会是整数集合:

127.0.0.1:6379> sadd numbers 1 3 5 7 9
(integer) 5
127.0.0.1:6379> object encoding numbers
"intset"

整数集合的实现

​ 整数集合(intset)是Redis用于保存整数值的集合抽象数据结构, 它可以保存类型为int16_t、int32_t或int64_t的整数值, 并且保证集合中不会出现重复元素。

​ 每隔intset.h/intset集合集合表示一个整数集合:

typedef struct intset {
    //编码方式
    unit32_t encoding;
    //集合包含的元素数量
    unit32_t length;
    //保存元素的数组
    int8_t contents[];
} intset;

​ contents数组是整数集合的底层实现:整数集合的每个元素都是content数组的一个数组项(item), 各个项在数组中按值的大小从小到大有序的排列, 并且数组中不包含任何重复项。

​ length属性记录了整数集合包含的元素数量, 也即是contents数组的长度。

​ 虽然intset结构将contents属性声明为int8_t类型的数组, 但实际上contents数组并不保存任何int8_t类型的值, contents数组的真正类型取决于encoding属性的值

  • 如果encoding属性值为INTSET_ENC_INT16,那么contents就是一个int16_t类型的数组, 数组里每个项都是一个int16_t类型的整数值(最小值为-2^16[-32768], 最大值为2^16-1[32767])。
  • 如果encoding属性值为INTSET_ENC_INT32,那么contents就是一个int32_t类型的数组, 数组里每个项都是一个int32_t类型的整数值(最小值为-232[-2147483648],最大值为232-1[2147483647])。

下图展示一个整数集合实例:

intset
encoding INTSET_ENC_INT16
length 5
contents -6370 -5 18 233 14632
  • encoding属性值为INTSET_ENC_INT16,表示整数集合的底层实现为int16_t类型的数组,而集合保存的都是int16_t类型的整数值。
  • length属性值为5,表示整数集合包含5个元素。
  • contents数组按从小到大的顺序保存着集合中的5个元素。
  • 因为每个集合元素都是int16_t类型的整数值, 所以contents数组的大小等于sizeof(int16_t) * 5 = 16 * 5 = 80位。

下图展示了另一个整数集合示例:

intset
encoding INTSET_ENC_INT64
length 4
contents -2675256175807981027 1 3 5
  • encoding属性值为INTSET_ENC_INT64,表示整数集合的底层实现为int64_t类型的数组, 而数组中保存的都是int64_t类型的整数值。
  • length属性值为4, 表示整数集合包含4个元素。
  • contents数组按从小到大的顺序保存着集合中的四个元素。
  • 因为每个集合元素都是int64_t类型的整数值, 所以contents数组的大小为sizeof(int64_t) * 4 = 64 * 4 = 256位。

​ 虽然contents数组中保存的四个整数值中, 只有-2675256175807981027是真正需要用int64_t类型来保存的, 而其他1、3、5三个值都可以用int16_t类型来保存, 不过根据整数集合的升级规则, 当向一个底层为int16_t数组的集合添加一个int64_t类型的整数值时, 整数集合已有的所有元素都会被转换成int64_t类型,所以contents数组保存的四个整数值都是int64_t类型的,不仅仅是-2675256175807981027。

整数集合的升级操作

​ 每当我们要将一个新元素添加到整数集合里,并且新元素的类型比整数集合现有所有元素的类型都要长时, 整数集合需要先今昔升级(upgrade),然后才能将新元素添加到整数集合里。

​ 升级整数集合并添加新元素共分为三步进行:

1、根据新元素的类型,扩展整数集合底层数据的空间大小,并为新元素分配空间。

2、将底层数组现有的所有元素都转换成与新元素相同的类型, 并将类型转换后的元素放置到正确的位上,且在放置元素的过程中, 需要继续维持底层数组的有序性质不变。

3、将新元素添加到底层数组里面。

​ 举个例子,假设现有一个INTSET_ENC_INT16编码的整数集合,集合中包含三个int16_t类型的元素,如下图所示:

intset
encoding INTSET_ENC_INT16
length 3
contents 1 2 3

​ 因为每个元素都占用16为空间, 所以整数集合的底层数组的大小是3 * 16 = 48位。下图展示了整数集合的三个元素在这48位里的位置。

0至15位 16至31位 32至47位
元素 1 2 3

​ 现假设需要将类型位int32_t的整数值65535添加到整数集合里, 因为65535的类型int32_t比整数集合当前所有元素的类型都要长, 所以在将65535添加到整数集合之前,程序需要先对整数集合进行升级。

​ 首先是根据新的类型长度, 以及集合元素的数量(包括要添加的新元素在内),对底层数组进行空间重分配。

​ 整数集合目前有三个元素, 在加上新元素65535,整数集合需要分配四个元素的空间,因为每个int32_t整数值需要占用32位空间,所以在空间重分配之后,底层数组的大小将是32*4=128位, 如下图所示。

0至15位 16至31位 32至47位 48至127位
元素 1 2 3 (新分配空间)

​ 虽然程序对底层数据进行了空间重分配, 但是数组原有的三个元素1、2 、3仍然是int16_t类型,这些元素还保存在数组的前48位,所以程序接下来要做的就是将这三个元素转换成int32_t类型,并将转换后的元素放置到正确的位上面, 而且在放置过程中,需要维持底层数组有序性质不变。

​ 首先,因为元素3在1、2、3、65535四个元素中排名第三, 所以它将被移动到contents数组的索引位置2位置上, 也即是数组64至95位的空间内, 如下图所示。

0至15位 16到31位 32至47位 48至63位 64至95位 96至127位
元素 1 2 (int16_t)3 (新分配空间) (int32_t)3 (新分配空间)

​ 接着,因为元素2在1、2、3、65535四个元素中排名第二,所以它将被移动到contents数组的索引1的位置上, 也就是数组的32位至63位的空间上,如下图所示:

0至15位 16至31位 32至63位 64至95位 96至127位
元素 1 (int16_t)2 (int32_t)2 3 (新分配空间)

​ 之后,因为元素1在1、2、3、65335四个元素的排名第一,所以它将被移动到contents数组的索引0位置上, 即数组的0位至31位的空间内, 如下图所示:

0至31位 32至63位 64位至95位 96位至127位
元素 1 2 3 (新分配空间)

​ 然后, 因为元素65535在1、2、3、65335四个元素中排名第四, 所以它将被添加到contents数组的索引3位置上, 也即是数组的96位至127位的空间内,如下图所示

0至31位 32位至63位 64位至95位 96位至127位
元素 1 2 3 (添加新元素)65535

​ 最后,程序将整数集合encoding属性值从INTSET_ENC_INT16改为INTSET_ENC_INT32, 并将length属性值从3改为4, 设置完成后的整数集合如下所示:

intset
encoding INTSET_ENC_INT32
length 4
contents 1 2 3 65535

​ 因为每次向整数集合添加新元素都可能会引起升级, 而每次升级都需要对底层数组中已有的所有原件进行类型转换, 所以向整数集合添加新元素的时间复杂度位O(N)。

因为引发升级的新元素的长度总是比整数集合现有所有元素的长度都要大,所以这个新元素的值要么大于所有现有元素,要么小于所有现有元素:

  • 在新元素小于现有元素的情况下, 新元素会被放在底层数组的最开头(索引0);
  • 在新元素大于所有现有元素的情况下, 新元素会被放置在底层数组的最末尾(索引length-1)。

整数集合升级的好处

提升灵活性

​ 因为C语言是静态类型语言,为了避免类型错误, 通常不会将两种不同类型的值放在同一个数据结构中。

​ 例如,我们一般只使用int16_t类型的数组来保存int16_t类型的值, 只使用int32_t类型的数组来保存int32_t类型的值,诸如此类。

​ 但是, 因为整数集合可以通过自动升级底层数组来适应新元素, 所以我们可以随意地将int16_t,int32_t,int64_t类型的整数提那就到集合中,而不必担心出现类型错误, 这种做法非常灵活。

节约内存

​ 当然,要让一个数组可同时保存int16_t、int32_t、int64_t三种类型的值,最简单的做法就是直接使用int64_t类型的数组作为整数集合的底层实现。不过这样一来, 即使添加到证书结合里都是int16_t类型或int32_t类型的值, 数组都需要使用int64_t类型的空间去保存它们,从而出现浪费内存的情况。

​ 而整数集合现在的做法既可以让集合同时保存三种不同类型的值,又可以确保升级操作只会在需要的时候进行,这可以尽量节省内存。

整数集合降级

​ 整数集合不支持降级操作,一旦对数组进行了升级,编码就会一直保持升级后的状态。

posted @ 2020-09-04 15:18  phper-liunian  阅读(132)  评论(0编辑  收藏  举报