zigzag编码原理

在Thrift，Protobuf和avro序列化框架中，不约而同使用了zigzag编码来对数字进行编码，从而达到减少数据传输量的目的。

zigzag算法的核心主要是去除二进制数字中的前导0，因为在绝大多数情况下，我们使用到的整数，往往是比较小的。

参考：小而巧的数字压缩算法：zigzag

在avro编码中，对于字符串Martin，长度为6，而6的二进制为0000 0110，其中首位置的0为符号位，在zigzag编码中，正数的符号位会移动到末尾，其它位往前移动一位，所以会变成0000 1100，即0c，再后面的字节是字符串UTF-8编码后的结果

在protobuf编码中，对于字符串的Martin，刚开始的字节表示其id和数据类型，下一个字节表示其长度，后面的字节是字符串UTF-8编码后的结果

参考：《数据密集型应用系统设计》的 Schema evolution in Avro, Protocol Buffers and Thrift

Avro，Protocol Buffer和Thrift中的模式演化(译)

posted @ 2021-05-21 13:57 tonglin0325 阅读(276) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 字符编码：从基础到乱码解决

历史上的今天：
2016-05-21 Spring MVC学习笔记——给Controller和视图传值
2016-05-21 Hive学习笔记——函数

公告

昵称： tonglin0325
园龄： 11年10个月
粉丝： 16
关注： 50

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔分类 (616)

随笔档案 (590)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Ubuntu下从外网上北邮人BT
您(IP：2408（后面省略）)，没有权限访问相应的资源是什么情况，我看也有ipv6的连接
--木木枭粉丝
2. Re:Ubuntu下Ansible安装和使用
精彩分享，点赞支持。
--wst021sh
3. Re:使用Impala parser解析SQL
@tonglin0325 @yingcai 你好，报错缺少libfesupport.so，这个问题怎么解决？...
--zfsn1208
4. Re:使用Impala parser解析SQL
@tonglin0325 好的，我再多添加依赖试一下，十分感谢~...
--yingcai
5. Re:使用Impala parser解析SQL
@yingcai 可能是需要其他一些依赖，比如hive-exec这种的，记得不是很清楚了 <dependency> <groupId>org.apache.hive</groupId> <artifa...
--tonglin0325