数仓的两种轻量级数据交换格式：json与jsonb

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18

33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19

34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07 40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09 41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15 48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20 49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04 54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04 55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08 65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10 66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13 82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13 83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《GaussDB(DWS)——探究JSON,JSONB》，作者：yd_283975606。

1. 前言

适用版本：【8.1.1（及以上）】

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，常用于将数据从服务器发送到Web应用程序。它采用人类易读和机器易解析的文本格式，基于键值对的集合，用于表示结构。

2. json/jsonb简介

json演进历程

版本
8.1.1	支持JSON数据类型
8.1.2	支持JSONB高级特性、索引
9.1.0	支持JSON列存、向量化，JSONB支持索引

2.1 json/jsonb简介

参考DWS产品文档，JSON数据类型可以用来存储JSON（JavaScript Object Notation）数据。

可以是单独的一个标量，也可以是一个数组，也可以是一个键值对象，其中数组和对象可以统称容器(container)：

标量(scalar)：单一的数字、bool、string、null都可以叫做标量。

数组(array)：[]结构，里面存放的元素可以是任意类型的JSON，并且不要求数组内所有元素都是同一类型。
对象(object)：{}结构，存储key:value的键值对，其键只能是用“”包裹起来的字符串，值可以是任意类型的JSON，对于重复的键，按最后一个键值对为准。

2.2 json与jsonb的区别

存储方式

json是输入字符串的完整拷贝，使用时再去解析，所以它会保留输入的空格，重复键以及顺序等；

jsonb解析后存储，删除语义无关的细节和重复的键，对键值也会进行排序，使用时不用再次解析。

性能差别

json由于精确拷贝，因此插入时性能较好，但是其在处理函数时，必须在每个执行上重新解析，因此其查询性能一般；

jsonb 数据以分解的二进制格式存储，这使得它由于添加了转换机制而在输入上稍微慢些。但是其由于插入后即默认有序排列，因此可以更好地支持的额外操作（如bool关系的比较，顶层元素存在的判断）。并且，其在处理函数时，不需要重新解析，查询性能较好。同时，jsonb支持创建btree、gist和gin索引。

3. json/jsonb输入格式

1.标量(scalar)：输入为数字、布尔类型时，使用单引号 ’ '声明，输入为字符串时必须加 " "声明

json_database=# SELECT '[1, 2, "foo", null, [[]], {}]'::jsonb;
             jsonb
-------------------------------
 [1, 2, "foo", null, [[]], {}]
(1 row)

2.数组(array)：使用中括号[]包裹，满足数组书写条件。数组内元素类型可以是任意合法的JSON，且不要求类型一致。

json_database=# SELECT '[1, 2, "foo", null, [[]], {}]'::jsonb;
             jsonb
-------------------------------
 [1, 2, "foo", null, [[]], {}]
(1 row)

3.对象(object)：使用大括号{}包裹，键必须是满足JSON字符串规则的字符串，值可以是任意合法的JSON。

json_database=# SELECT '{"a": 1, "b": {"a": 2,  "b": null}}'::json;
                json
-------------------------------------
 {"a": 1, "b": {"a": 2,  "b": null}}
(1 row)

4.嵌套数组和对象：数组array中可以是任意合法的json元素，对象object则严格遵循了key:value的格式，两者结合可以方便地有序查找json值。

json_database=# SELECT '{"foo": [true, "bar"], "tags": {"a": 1, "b": null}}'::jsonb;
                        jsonb
-----------------------------------------------------
 {"foo": [true, "bar"], "tags": {"a": 1, "b": null}}
(1 row)

4. DWS的json与jsonb能力

当前DWS支持创建列存json、jsonb。

4.1 常用的json/jsonb函数及操作符(jsonb为例，json同理)

1.jsonb_object_field(jsonb, text)

描述：输入的json类型为json-object，返回指定键对应的值（可能为json-object或json-array）

对应操作符：->

返回类型：jsonb

json_database=# SELECT jsonb_object_field('{"a": {"b":"foo"}}','a');
 jsonb_object_field
--------------------
 {"b": "foo"}
(1 row)

json_database=# SELECT '{"a":{"b":"foo"}}'::jsonb->'a';
  ?column?
-------------
 {"b":"foo"}
(1 row)

2.jsonb_array_element(array-jsonb, integer)

描述：输入的json类型为json-array，返回数组中指定下标的元素（为任意合法的JSON）

对应操作符：->

返回类型：jsonb

json_database=# SELECT jsonb_array_element('[1,true,[1,[2,3]],null]',2);
 jsonb_array_element
---------------------
 [1, [2, 3]]
(1 row)

json_database=# SELECT '[1,true,[1,[2,3]],null]'::jsonb->2;
  ?column?
-------------
 [1, [2, 3]]
(1 row)

3.jsonb_extract_path((jsonb, VARIADIC text[])

描述：输入为json-object或json-array，返回$2所指路径的值。$2中可以为json-object对应的键值(字符串类型)，也可以为json-array对应的下标(整数类型)

对应操作符：#>

注意：GaussDB(DWS)对象标识符支持以符号"#“结尾，为避免a#>b解析过程出现歧义，因此操作符”#>"前后需要增加空格，否则解析报错。

返回类型：jsonb

json_database=# SELECT jsonb_extract_path('{"f2":{"f3":1},"f4":{"f5":99,"f6":["stringy",1,true]}}', 'f4','f6',2);
 jsonb_extract_path
--------------------
 true
(1 row)

json_database=# SELECT '{"f2":{"f3":1},"f4":{"f5":99,"f6":["stringy",1,true]}}'::jsonb #> '{f4,f6,2}';
 ?column?
----------
 true
(1 row)

4.2 jsonb高级特性

1.jsonb会丢弃空格等语义无关的细节

json_database=# select '   [1, " a ", {"a"   :1    }]  '::jsonb;
        jsonb
----------------------
 [1, " a ", {"a": 1}]
(1 row)

2.jsonb会默认对输入键值的重新排序

json_database=# insert into test_json values('{"C":1,"B":2,"A":false}','{"C":1,"B":2,"A":false}');
INSERT 0 1
json_database=# select *from test_json;
           jj            |              jb
-------------------------+------------------------------
 {"C":1,"B":2,"A":false} | {"A": false, "B": 2, "C": 1}
(1 row)

比较规则如下：

首先比较类型：object-jsonb > array-jsonb > bool-jsonb > num-jsonb > str-jsonb > null-jsonb

同类型则比较内容：

str-json类型：依据text比较的方法，使用数据库默认排序规则进行比较，返回值正数代表大于，负数代表小于，0表示相等。
num-json类型：数值比较
bool-json类型：true > false
array-jsonb类型：长度长的 > 长度短的，长度相等则依次比较每个元素。
object-jsonb类型：长度长的 > 长度短的，长度相等则依次比较每个键值对，先比较键，再比较值。

5.总结

DWS的JSON能力总结

目前，DWS的JSON/JSONB的功能基本完善。主要体现在函数、操作符、索引功能的支持。但目前来说，JSON列存仍然采用的是直接存储JSON数据，即将原始的JSON数据存成单独的一列，以完整的JSON值作为最小的粒度在磁盘上，具体如下：

json_data
{“user_id”:1001, “user_name”: “Adam”, “gender”: “Male”, “age”: 16}
{“user_id”:1002, “user_name”: “Bob”, “gender”: “Male”, “age”: 41}
{“user_id”:1003, “user_name”: “Clair”, “gender”: “Female”, “age”: 21}

优点是：JSON则天然支持Schema Evoluation，上游业务的变更，只需要在JSON列数据中进行增删相应的字段，无需对数仓中的表做任何DDL就能完成，也能对中间的ETL作业做到透明，最大程度地保留了半结构化数据的易用性和灵活性，能大大降低维护和管理表结构的成本。

缺点是：应用端查询时需要选择合适的处理函数和方法，才能解析到需要的数据，开发较为复杂，如果JSON较复杂，同时查询性能会有退化，因为每次JSON列的数据参与计算的时候，都需要对JSON数据完整的解析一遍，比如需要抽取出整个JSON中某个字段，那么查询引擎执行的时候就要读出每一行JSON，解析一遍，取出需要的字段再返回。这中间会涉及大量的IO和计算，而需要的可能只是JSON数据成百上千字段当中的一个字段，这中间的大量IO和计算都是浪费的。

另外，当前云原生分支上JSON的向量化支持仍然是沿用的通用的向量化框架，没有定制化的向量化函数。通用的向量化函数框架本质上来说仍然为行存的调用，并不是完全意义上的向量化。

后续演进路线

如上所述，后续想要提升JSON/JSONB的查询性能，首先必须提升JSON的存储方式，即在解析前端将JSON拍平成宽表，真正意义上发挥JSON半结构化数据的优势。

user_id	user_name	gender	age
1001	Adam	Male	16
1002	Bob	Male	41
1003	Clair	Female	21

这种做法的优点是：写入DWS时，因为是普通列写入，所以写入性能会更好，同时在查询侧，不需要对JSON数据进行解析，查询性能也会更好。

缺点是：每当上游的数据格式有变更时，比如变更数据类型、增删字段、执行DDL进行加列或者删列，中间的实时数据ETL作业也需要进行适配改动并重新上线，使用非常不灵活，也会额外增加运维和开发负担。并且当JSON的每一个键值都为一列，若出现异常数据，可能导致列数的急速膨胀，进而影响性能。

当前Hologres的方案类似，但其对特殊的列采用单独列（属性为JSON）存储那些同质化不强的json键值（极少数出现的json键值）

另外，当前列存JSON的性能当前瓶颈点在于向量化的性能，一方面需要提升通用当前DWS的向量化能力，另一方面也可以考虑对json函数做出优化。

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-04-19 15:12 华为云开发者联盟阅读(95) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 对比分析数仓中行列存的特性

· 解读数仓中的数据对象及相关关系

· Postgresql——jsonb类型

· BSON VS JSON

· postgres 之json

阅读排行：
· 【.NET】调用本地 Deepseek 模型
· CSnakes vs Python.NET：高效嵌入与灵活互通的跨语言方案对比
· DeepSeek “源神”启动！「GitHub 热点速览」
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 我与微信审核的“相爱相杀”看个人小程序副业

历史上的今天：
2023-04-19 10分钟带你徒手做个Java线程池
2023-04-19 CANN开发实践：4个DVPP内存问题的典型案例解读
2023-04-19 Karmada v1.5发布：多调度组助力成本优化
2022-04-19 不care工具，在大数据平台中Hive能自动处理SQL
2022-04-19 如何应对“科技人才热”？华为云联合慧科集团加速培养模式创新
2022-04-19 从安全和不安全两个角度，教你如何发布对象（含各种单例代码）
2022-04-19 打基础丨Python图像处理入门知识详解

公告

昵称：华为云开发者联盟
园龄： 4年9个月
粉丝： 855
关注： 1

+加关注

2025年2月

日

一

二

三

四

五

六

数仓的两种轻量级数据交换格式：json与jsonb

1. 前言

2. json/jsonb简介

2.1 json/jsonb简介

2.2 json与jsonb的区别

3. json/jsonb输入格式

4. DWS的json与jsonb能力

4.1 常用的json/jsonb函数及操作符(jsonb为例，json同理)

4.2 jsonb高级特性

5.总结

DWS的JSON能力总结

后续演进路线

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4020)

随笔档案 (4101)

阅读排行榜

评论排行榜

推荐排行榜

最新评论