Varint编码

Varint编码

什么是Varint编码

Varint是一种使用一个或多个字节序列化整数的方法,会把整数编码为变长字节(压缩)。对于32位整型数据经过Varint编码后需要1到5个字节,小的数字使用1个byte,大的数字使用5个bytes。64位整型数据编码后占用1~10个字节。在实际场景中小数字的使用率远远多于大数字,因此通过Varint编码对于大部分场景都可以起到很好的压缩效果。

编码原理

除了最后一个字节外,varint编码中的每个字节都设置了最高有效位(most significant bit - msb)–msb 为 1 则表明后面的字节还是属于当前数据的,如果是 0 那么这是当前数据的最后一个字节数据。每个字节的低 7 位用于以 7 位为一组存储数字的二进制补码表示,最低有效组在前,或者叫最低有效字节在前。这表明varint编码后数据的字节是按照小端序排列的。

最高有效位:
1:后续 byte 是该数字的一部分
0:后续 byte 直到第一个 1 之前都不是该数字的一部分

编码过程详解

例如:
300 二进制为 0001 0010 1100
先按每7位一组分好 00010 0101100
再逆序(小端排序) 0101100 00010
然后再将每组加上最高有效位并填充,就变成了 10101100 00000010

posted @ 2023-09-10 15:33  CodeOtter  阅读(250)  评论(0编辑  收藏  举报