数仓实践丨从CU入手优化HStore表

合集 - 数据库(100)

1.数仓实践丨主动预防-DWS关键工具安装确认2023-04-25 2.一条SQL如何被MySQL架构中的各个组件操作执行的？2023-05-04 3.GaussDB(DWS)网络流控与管控效果2023-05-05 4.GaussDB(DWS)字符串处理函数返回错误结果集排查2023-05-06 5.从缓存的本质说起，说服技术大佬用Redis2023-05-10 6.这年头怕数据泄露？全密态数据库：无所谓，我会出手2023-05-19 7.华为云新一代分布式数据库GaussDB，给世界一个更优选择2023-06-09 8.GaussDB技术解读丨高级压缩2023-07-19 9.掌数科技携手华为云GaussDB，助力金融科技创新，联合打造行业标杆2023-07-20 10.一文带你全面了解openGemini2023-07-25 11.GaussDB(for Redis)多租户：读写权限控制和数据库隔离的完美融合2023-07-26 12.5分钟迁移关系型数据库到图数据库2023-07-26 13.数仓现网案例丨超大结果集接收异常2023-07-27 14.DWS轻量化更新黑科技：宽表加工优化2023-07-28 15.数据库行业需要什么样的人才？高校老师这样说2023-07-31 16.数仓性能优化：倾斜优化-表达式计算倾斜的hint优化2023-08-01 17.GaussDB技术解读系列之SQL Audit，面向应用开发的SQL审核工具2023-08-02 18.带你认识数仓的监控系统TopSQL2023-08-04 19.带你走进数仓大集群内幕丨详解关于作业hang及残留问题定位2023-08-07 20.实时入库不用愁，HStore帮分忧2023-08-08 21.openGauss数据库在CentOS上的安装实践2023-08-10 22.揭秘华为云GaussDB(for Redis)丨大key治理2023-08-11 23.GaussDB(DWS)函数不同写法引发的结果差异2023-08-11 24.数仓中典型的几种不下推语句整改案例2023-08-14 25.GaussDB技术解读系列之应用无损透明（ALT）2023-08-14 26.华为云GaussDB(for Influx)单机版上线，企业降本增效利器来了2023-08-15 27.数仓备份经验分享丨详解roach备份原理及问题处理套路2023-08-16 28.中国云数据仓库，双第一！2023-08-21 29.华为云GaussDB打造最可信的数据库，给世界一个更优选择2023-08-22 30.GaussDB技术解读系列：高级压缩之OLTP表压缩2023-08-23 31.十年磨一剑的华为云GES，高明在哪2023-08-25 32.使用DWS集群，用户被锁定如何解锁2023-08-25 33.GaussDB技术解读系列：高安全之密态等值2023-08-28 34.GaussDB技术解读：应用无损透明（ALT）2023-08-30 35.数仓资源管控理论已掌握，是时候实战了2023-09-04 36.row_number函数的不稳定性2023-09-05 37.GaussDB技术解读丨数据库迁移创新实践2023-09-07 38.聊聊GaussDB AP是如何执行SQL的2023-09-07 39.Navicat 携手华为云GaussDB，联合打造便捷高效的数据库开发和建模工具方案2023-09-11 40.GaussDB技术解读系列丨运维自动驾驶探索2023-09-12 41.一次性全讲透GaussDB（DWS）锁的问题2023-09-13 42.GaussDB(DWS)性能调优：Sort+Groupagg聚集引起的性能瓶颈案例2023-09-14 43.多主架构：VLDB技术论文《Taurus MM: bringing multi-master to the cloud》解读2023-09-14 44.GaussDB（for Redis）游戏实践：玩家下线行为上报2023-09-18 45.一文详解数据仓库的物理细粒度备份恢复2023-09-18 46.华为云HBase冷热分离最佳实践2023-09-25 47.四问复合索引，让你的数据查询速度飞起2023-09-27 48.GaussDB(DWS)案例丨MERGE场景下语句不下推引起的性能瓶颈问题2023-10-07 49.如何强制SQL走性能更优的hash join2023-10-13 50.如何使用GaussDB(DWS)的本地临时表进行数据处理2023-10-17 51.华为云GaussDB亮相金融业数据库技术大会2023-10-18 52.2个数仓中不等值关联优化案例2023-10-19 53.数仓实时场景下表行数估算不准确引起的的性能瓶颈问题案例2023-10-24 54.详解GuassDB数据库权限命令：GRANT和REVOKE2023-10-26 55.DWS临时内存不可用报错: memory temporarily unavailable2023-10-27 56.华为云GaussDB城市沙龙活动走进安徽，助力金融行业数字化转型2023-10-31 57.理论+应用，带你了解数据库资源池2023-11-02 58.人人用数不用愁，动态数据脱敏为您解忧2023-11-03 59.实例讲解数据库的数据去重2023-11-07 60.数仓实践丨表扫描时过滤行数过多引起的性能瓶颈问题2023-11-08 61.实例详解构建数仓中的行列转换2023-11-08 62.Proxy下的Prepare透传，让GaussDB(for MySQL)更稳固，性能更卓越2023-11-09 63.浅析KV存储之长尾时延解决办法2023-11-10 64.实例讲解数据库的定义重载函数2023-11-15 65.详解数据库SQL中的三个语句：DROP、TRUNCATE 、DELETE2023-11-16 66.华为云GaussDB助力工商银行、华夏银行斩获“十佳卓越实践奖”2023-11-17 67.Navicat 基于 GaussDB 主备版的快速入门2023-11-20 68.数仓实时算子难以观测，快来试试算子级监控吧2023-11-21 69.列举数据库缓存使用场景实例和命令速查表2023-11-24 70.带你认识多模数据库GeminiDB架构与应用实践2023-11-27 71.3招解决时序数据高基数难题，性能多维度提升！2023-11-27 72.数仓性能调优：row_number() over(p)-rn=1性能瓶颈发现和改写套路2023-11-28 73.数仓实践丨常量标量子查询做全连接导致整体慢2023-11-30 74.细说GaussDB(DWS)的2种查询优化技术2023-12-04 75.细说SQL与ETL之间的小秘密2023-12-06 76.从概念到实践，带你掌握层次递归查询2023-12-08 77.GeminiDB Cassandra接口新特性PITR发布：支持任意时间点恢复2023-12-11 78.你的JoinHint为什么不生效2023-12-18 79.六步走向无忧，华为云数据库高可用的秘密武器2023-12-22 80.数仓调优实践丨SQL改写消除相关子查询2023-12-25 81.GaussDB(for MySQL)新特性TDE发布：支持透明数据加密2024-01-08 82.详解GaussDB(DWS)通信安全的小妙招：连接认证机制2024-01-10 83.GaussDB(for MySQL) RegionlessDB发布：全球数据库技术2024-01-12 84.5分钟带您了解DRS录制回放2024-01-15 85.ICDM'23 BICE论文解读：基于双向LSTM和集成学习的模型框架2024-01-19 86.数仓如何递归查询视图依赖2024-01-24 87.支撑核心系统分布式改造，GaussDB为江南农商银行筑稳根基2024-01-25 88.近6成金融机构的选择！华为云GaussDB加快金融核心系统转型2024-01-25 89.GaussDB(for MySQL)剪枝功能，让查询性能提升70倍！2024-01-29 90.2023年度十佳课题公布：华为云GaussDB获权威认可2024-01-30 91.详解如何在数仓中搭建细粒度容灾应用2024-02-01 92.对话苏光牛：国内数据库市场已进入关键转折点，2024年或是分水岭2024-02-06 93.GaussDB通信运维：详解stream连接池设计原理2024-02-19 94.GaussDB(for MySQL) Serverless全面商用：无感弹性，极致性价比2024-02-19 95.华为云GaussDB支撑农行超级网银业务，性能和稳定性备受认可2024-02-22 96.实例详解数据库的游标管理2024-02-26

97.数仓实践丨从CU入手优化HStore表2024-02-27

98.数仓的等待视图中，为什么会有Hashjoin-nestloop2024-02-28 99.如何基于Sharding-JDBC实现GaussDB在客户端应用的读写分离01-20 100.如何迅速并识别处理MDL锁阻塞问题01-22

本文分享自华为云社区《GaussDB(DWS)存储引擎：从CU入手优化HStore表》，作者： yd_261437590。

1. 前言

适用版本：【8.2.1（及以上）】

HStore同时拥有处理传统TP场景的事务能力和强大的数据分析能力，但是强大的数据分析能力很可能被小CU问题给破坏，另外，将多个CU排序可以增加HStore的数据聚簇性，因此作者通过解决小CU问题和提升数据聚簇性两种方式对HStore表的存取能力进行优化。

2. HStore简介

2.1 行存储

传统OLTP（OnLine Transaction Processsing 联机事务处理）场景与功能、业务强相关，数据需要进行频繁的增删改查，这时比较适合使用行存储式。行存储的优势主要有两个方面：首先是点查性能好，在点查场景下可以直接索引到某行数据的元组位置；其次就是更新效率高，行存储在实时并发入库，并发更新方面依然有着比较大的优势。

2.2 列存储

传统行存储形式的数据库主要为业务服务，但是如果涉及到分析查询场景，特别是在数据量大且复杂的查询时，就会遇到性能瓶颈了，性能瓶颈是数据存储方式决定的。因此OLTP（OnLine Transaction Processsing 联机事务处理）场景一般会交给列存储引擎去做。列存储的优势主要有两方面：首先是批量查询性能好，当分析查询只涉及某列或者某几列，不需要访问无关列，特别是在表的宽度比较大时（如一千列），优势更加明显；其次就是列存储的压缩性能更高，原因就是因为数据按列存储，单列类型相同。

列存储引擎的最小存储单位是CU(Compression Unit, 压缩单元)：一个CU是由表中某一列的一部分数据组成的压缩数据块，通过(cu_id,col_id)标识一个CU。

图1 列存储

另外，列存引擎通过delta表，避免了小CU的产生，显著提升列存表单条导入的性能，同时解决由于小CU导致的数据膨胀问题。当单条或小批量数据导入到列存表时，需先存入delta表，当delta表中数据积攒到指定行数时再存入新产生的CU中。

2.3 HStore

列存储优势明显，但是劣势也比较明显，传统列存表基本无法支持并发更新入库。随着业务复杂程度的提升，出现了对于实时入库和实时查询有较强诉求的场景，这要求数据库同时拥有处理传统TP场景的事务能力和强大的数据分析能力。这时就可以使用HStore来处理这些场景了。

图2 HStore存储

HStore利用delta表存储update/delete/insert等操作信息。之后依赖后台常驻autovacuum来做merge操作将数据写入主表。

HStore的Delta表与普通列存Delta表的对比

数仓类型	列存的delta表	HStore的delta表
表结构	与列存主表的表定义一致	与主表表定义不一样。
功能	用于暂存小批量insert的数据，满阈值后再merge到主表，避免直接insert到主表产生大量小CU。	用于持久化存储update/delete/insert等操作信息。
缺陷	来不及merge导致delta表膨胀，影响查询性能，同时无法解决并发update的锁冲突问题	依赖后台常驻autovacuum来做merge操作。

利用特有的delta表，HStore解决了传统列存表CU锁的问题，支持上游upsert/update等操作实时并发入库。同时还能保证和普通列存表相近的数据分析与数据压缩能力。

HStore表技术特点如下：

完整的事务一致性：支持全面的事务能力，数据插入或者更新提交后即可见不存在时延，保证数据ACID一致性。
全面的功能支持：提供和当前列存一样全面的功能和语法支持。
查询性能好：适用多表关联等复杂AP查询场景，相对于传统行存表，拥有更完善的分布式查询计划与更先进的分布式执行器，性能优势明显。支持复杂的子查询和存储过程，支持主键等传统索引能力去重和加速点查，也支持分区、全局字典、局部排序等方式进一步加速AP查询。
入库快：彻底解决列存CU锁冲突问题，支持高并发的更新入库操作，典型场景下，并发更新性能是之前的百倍以上。
高压缩：数据在MERGE进入列存主表后，按列存储具有天然的压缩优势，能极大地节省磁盘空间与IO资源。

3. 小CU问题

3.1 问题诱因

有些实时表入库量并不大，不定期会有入库，因为merge的判断标准有两个：行数或者时间，超过时间没有入库后也会强制merge，这种情况下merge产生的CU的行数不可控，可能产生小CU；
对于缓慢变化维表来说，可能很长时间才改变一次，每次都可能产生一个小CU，虽然不会有太多这种小CU，但长期运行后，这种维度表数量还很多的情况下，小CU的数量就会到达影响系统性能的级别；
频繁upsert、update、delete等更新后，CU中大部分数据被标记删除，这样的CU虽然会被列存vacuum通过填充NULL进行回收，但是依然会导致小IO和cudesc表的膨胀，进而影响性能。

3.2 问题影响

CUDesc并不会因为CU变小而变小，因此当小CU过多会导致存储利用率过低。比如一个1000列的大宽表产生的CU只包含1行数据，但是因为每一列都会在CUDESC表中记录，CUDesc也会增加一千多行数据；
只剩下几十行甚至几行的小CU会引发大量的小IO；
粗过滤效率降低，因为CUDESC表中会存储CU的最值，当进行查询时可以先通过最值进行粗过滤，但是如果CU中数据太少导致数据范围小，则会降低粗过滤效率；
降低压缩率。因为数据压缩是以CU为单位的，但是CU过小会导致压缩表现达不到预期

可以认为0 CU其实是小CU的一种特殊极端情况，0 CU相对非0的小CU对于性能影响小很多，因为0 CU只用加载deletemap。

图3 CU管理

3.3 解决思路

3.3.1 小CU合并

小CU合并不是直接产生新的CU，而是将小CU数据重新插入到delta表后标记删除，然后依赖delta表的自动merge攒够后再产生完整的新CU；

图4 小CU合并

和正常的delta merge不同在于，小CU被标记删除后新插入delta表的记录会申请新的ctid，因为ctid是变化的，所以该操作和DML操作存在冲突。当DML操作时遇到小CU合并，使用等待重试的方式处理；当compact操作时遇到DML冲突时直接跳过即可,原因就是删除和更新操作还是会将数据标记删除，因此可以直接放弃合并此条数据。

图5 小CU合并时单条数据的处理

小CU合并的事务可见性基于现有的csn机制，compaction inprogress或者回滚对外不可见，还是看到老记录，compaction提交老记录就不再可见看到新记录。

具体一个CU中剩余多少条数据才算是小CU，应该是与业务强相关。因此，小CU阈值应该可以使用GUC参数调节

3.3.2 0CU清理

0CU的处理比小CU的处理简单的多，我们直接从CUDESC表中将0CU记录删除即可。这里指的删除天然支持MVCC，因此老的快照查询依然可以访问被删除的记录。

小CU合并的过程就是不断的尝试把小于一定阈值的CU标记删除，转移数据到delta中，直到这个CU全部被标记删除后变成0 CU，就可以当做0 CU彻底清理。

3.3.3 效果

成功解决小CU问题，并且在小CU合并期间对实时入库性能几乎没有影响（推荐小CU行数阈值下upsert性能劣化1%），但是因为小CU问题的解决，可以很好的解决查询性能劣化，空间膨胀等问题，并且小CU合并完成后，最终实时入库性能还是会有显著提升。

4. 提升数据聚簇性

4.1 需求来源

在对HStore进行点查时，会首先通过CU的min/max来进行粗过滤，我们希望通过min/max过滤掉大部分数据，这就要求每个CU的数据尽可能的接近，而不能过于分散。目前GaussDB已经实现了局部聚簇 (Partial Cluster Key, 简称PCK)，在数据批插过程中就会进行排序。但还是会有如下几种情况导致CU的聚簇性无法达到要求：

写入数据时，如果不是批量导入，则不会把数据写入排序器，而是直接插入delta表，当delta表merge的时候，也不会先走排序逻辑，而是直接将数据写入CU；
当CU中的数据被删除的足够多时，就变成了小CU，聚簇性本身就会变差，就算进行了小CU合并，也依然不会走排序逻辑，而是将数据直接写入delta表，merge流程与1）一致；
实际上就是增加数据+删除数据。

4.2 解决思路

通过将HStore中多个CU的数据根据partial cluster key进行排序，生成新的CU再重新写入，新CU的数据会有更高的聚集性，即CU的min,max会在一个较小的区间内。异步排序时的并发处理与小CU合并类似，见3.3.1。

paixu_基本原理.jpg

图6 异步排序基本原理

4.3 效果

经过测试，排序后的CU聚簇性极大提升，粗过滤效率的提升与原本的数据特征有关。但是排序过程中会对所有参与排序的CU加CU级锁，此过程会阻塞部分DML操作，因此不建议在业务高峰期使用此功能。

5. 总结

本文主要讲解了如下几个方面：

大致介绍了GaussDB实时数仓的重要解决方案：HStore；
引出小CU问题并给出了解决方案；
从数据的聚簇性作为切入点，提出异步排序来优化HStore表的scan性能；

6. 参考文档

数仓实时入库利器：HStore表原理与应用实践详解。作者：马俊松（华为云GaussDB(DWS) 技术布道师）

点击关注，第一时间了解华为云新鲜技术~

posted @ 2024-02-27 09:13 华为云开发者联盟阅读(76) 评论(0) 编辑收藏举报

数仓实践丨从CU入手优化HStore表

1. 前言

2. HStore简介

2.1 行存储

2.2 列存储

2.3 HStore

3. 小CU问题

3.1 问题诱因

3.2 问题影响

3.3 解决思路

3.3.1 小CU合并

3.3.2 0CU清理

3.3.3 效果

4. 提升数据聚簇性

4.1 需求来源

4.2 解决思路

4.3 效果

5. 总结

6. 参考文档

公告

搜索

常用链接

我的标签

积分与排名

合集 (21)

随笔分类 (4019)

随笔档案 (4100)

阅读排行榜

评论排行榜

推荐排行榜

最新评论