从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践

合集 - 数据库最新分享(87)

1.华为云峰会2024，GaussDB扬帆出海，给世界一个更优选择2024-02-28 2.预算有限，资源冗余？DWS集群缩容如何帮你解决烦劳2024-02-29 3.数智融合，华为云GaussDB(for MySQL)助力企业释放数据新价值2024-03-01 4.RDS for MySQL Serverless公测上线：弹性伸缩，最高可降成本超80%2024-03-04 5.GaussDB跨云容灾：实现跨地域的数据库高可用能力2024-03-05 6.实例详解如何构建动态SQL语句2024-03-05 7.GaussDB(DWS)运维利刃：TopSQL工具解析2024-03-07 8.手把手带你认识GaussDB轻量化运维管理工具2024-03-08 9.守护更多女性健康，华为云GeminiDB助力美柚数据库高效稳定迁移2024-03-08 10.GaussDB(DWS)集群通信：详解pooler连接池2024-03-11 11.Libcomm通信库：GaussDB(DWS) 为解决建联过多的小妙招2024-03-12 12.实例带你了解GaussDB数据库的LOCK TABLE2024-03-12 13.RDS for MariaDB“智能DBA助手”，让运维效率嗖嗖地！2024-03-12 14.实例带你了解GaussDB的索引管理2024-03-14 15.详解GaussDB(DWS)中3个防过载检查项2024-03-18 16.华为云数据库创新发展论坛，打造行业更优数据库底座！2024-03-19 17.GaussDB(分布式)实例故障处理2024-03-19 18.华为云GeminiDB新版本发布：全面支持Redis 6.22024-03-20 19.究竟什么样的数据库，才能承接RTA广告这个技术活！2024-03-20 20.GaussDB(DWS) 业务高可靠的三大利器：CN RETRY、远程读、ELB2024-03-25 21.走在前、做示范，苏州农商银行携华为云完成超级网银系统改造2024-03-25 22.分布式数据库技术的演进和发展方向2024-03-26 23.新版Redis不再“开源”，对使用者都有哪些影响？2024-03-27 24.cgroup、资源池、用户的关系..涉及到GaussDB(DWS)的资源设置2024-03-29 25.GeminiDB Cassandra接口新特性FLASHBACK发布：任意时间点秒级闪回2024-04-01 26.探索GaussDB(DWS)湖仓融合：Hudi与元数据打通的深度解析2024-04-01 27.详解数仓对象设计中序列SEQUENCE原理与应用2024-04-02 28.数仓调优实战：GUC参数调优2024-04-07 29.详讲openGauss 5.0 单点企业版如何部署_Centos7_x862024-04-08 30.华为云GeminiDB，广告RTA的“登云梯”2024-04-09 31.DTC2024，华为云数据库创新融合大发展，打造世界级数据库！2024-04-17 32.GaussDB(DWS)基于Flink的实时数仓构建2024-04-18 33.数仓的两种轻量级数据交换格式：json与jsonb2024-04-19 34.重磅新品发布！云耀数据库HRDS，享受轻量级的极致体验2024-04-23 35.“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！2024-04-24 36.GaussDB SQL查询语句执行过程解析2024-04-24 37.详解数仓的向量化执行引擎2024-04-25 38.Redis开源社区持续壮大，华为云为Valkey项目注入新的活力2024-05-06 39.详解数仓的3A安全能力2024-05-07 40.【GaussDB(for MySQL)】 Big IN查询优化2024-05-09 41.GaussDB细粒度资源管控技术透视2024-05-09 42.带你了解GaussDB SQL中的BOOLEAN表达式2024-05-10 43.数仓安全：数据脱敏技术深度解析2024-05-10 44.详解GaussDB(DWS)中的行执行引擎2024-05-11 45.了解GaussDB SQL中CASE表达式2024-05-13 46.JDBC连接openGauss6.0和PostgreSQL16.2性能对比2024-05-14 47.MySQL 给用户添加 ALTER VIEW 的权限2024-05-15 48.MySQL全文索引源码剖析之Insert语句执行过程2024-05-20 49.全球厂商之最，华为17篇论文入选国际数据库顶会ICDE2024-05-22 50.GeminiDB PITR，让游戏回档“进退自如”！2024-05-24 51.浅析MySQL 8.0直方图原理2024-05-27 52.LLVM技术在GaussDB等数据库中的应用2024-06-03 53.告别内存OOM，解决MySQL内存增长问题2024-06-04

54.从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践2024-06-04

55.深度体验与测评openGauss 6.0.0新版本2024-06-11 56.深度解读数据库引入LLVM技术后如何提升性能2024-06-12 57.从Purge机制说起，详解GaussDB(for MySQL)的优化策略2024-06-17 58.攀登不止，华为数据库论文入选SIGMOD 2024，技术创新再谱新篇2024-06-18 59.技术解读数据库如何实现“多租户”？2024-06-20 60.解读MySQL 8.0数据字典的初始化与启动2024-06-24 61.GeminiDB全面联动MySQL：热点数据，一键加速2024-06-26 62.探秘数据库中的并行计算技术应用2024-07-01 63.硬核解读，WeTune是如何提升数据库查询重写性能？2024-07-04 64.开源数据库Greenplu突然闭源？GaussDB(DWS)提供数仓新可能2024-07-08 65.数据库异常难定位？GaussDB(DWS)运维神器TopSQL来解决2024-07-10 66.MySQL派生表合并优化的原理和实现2024-07-11 67.华为云发起，openGemini正式成为CNCF官方项目！2024-07-11 68.MySQL中为什么要使用索引合并(Index Merge)？2024-07-12 69.解读MySQL 8.0数据字典缓存管理机制2024-07-16 70.解读GaussDB(for MySQL)灵活多维的二级分区表策略2024-07-19 71.深度解读GaussDB(for MySQL)与MySQL的COUNT查询并行优化策略2024-07-25 72.一图为你揭秘云数据库GaussDB管理平台亮点2024-10-17 73.深度解读GaussDB逻辑解码技术原理2024-10-28 74.深度解读RDS for MySQL 审计日志功能和原理2024-10-29 75.遇到慢查询怎么办？一文解读MySQL 8.0查询分析工具2024-10-31 76.从源码分析，MySQL优化器如何估算SQL语句的访问行数2024-11-11 77.一文带你搞懂GaussDB数据库性能调优2024-11-18 78.揭秘UGO SQL审核功能4大特性，让业务平滑迁移至GaussDB2024-12-02 79.了解GaussDB性能调优之隐式转换，解决慢SQL问题2024-12-10 80.全面解读TaurusDB透明压缩特性，降低数据库使用成本2024-12-11 81.解读GaussDB的BTree索引和UBTree索引，如何带来更强并发能力2024-12-13 82.想提高查询性能，用GaussDB(DWS) in表达式还是or表达式？2024-12-13 83.详解GaussDB(DWS)逻辑集群，如何化解大规模业务数据管理难题2024-12-17 84.TaurusDB库表时间点极速恢复，大幅缩短数据恢复时间2024-12-18 85.拦截烂SQL，解读GaussDB(DWS)查询过滤器过滤规则原理2024-12-20 86.开源for Huawei，Beam适配GaussDB实践案例分享2024-12-24 87.优化大宽表查询性能，揭秘GaussDB(DWS) 谓词列analyze2024-12-25

本文分享自华为云社区《DTSE Tech Talk × openGemini ：从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》，作者：华为云开源。

在本期《从数据库设计到性能调优，全面掌握openGemini应用开发最佳实践》的主题直播中，华为云开源DTSE技术布道师&openGemini社区发起人Shawn，通过解析数据库应用开发的一般流程与开发者们分享了熟悉业务场景是做好数据库设计的关键这一重要观点，并分别向大家介绍了openGemini库和表设计、数据写入、数据查询的最佳实践，希望能让开发者们从优秀实践中获得新的启发和提升。

熟悉业务场景是做好数据库设计的关键

任何数据库都不是万能的，熟悉业务场景是做好数据库设计非常关键的一环，同时，当了解清楚业务场景再去做数据库选型时会给你带来很大的帮助。做数据库选型之前，大家可以按照以下8条去做细致的评估：

数据分类
应用分类
采集频率(s)
时间线评估
每分钟写入数据量
采集的指标
业务查询场景
数据保留周期

openGemini库和表设计最佳实践

当把业务场景都了解清楚过后，便可以做库和表的设计了。Shard是openGemini的数据分片概念，openGemini支持shard延时加载，也就有了有活动shard和历史shard的区别。每个shard有自己的索引和缓存，增加DB，或者增加RP，都会增加同等数量的shard，也就增大了数据处理的并发度。个人建议在使用openGemini时采用多个库，适度增加DB数量，有利于系统资源得到充分利用，并提升性能。

当机器规格一定时，支持的shard数量是有上限的
粗略的评估方法：shard数量 <= 总量内存 * 0.25 / 60M
Shard数量受本地磁盘性能限制，因为不同shard之间存在磁盘带宽和I/O的竞争。

shard或表过多，容易对系统性能造成影响：

DB/RP越多，shard越多，占用内存资源会越大，磁盘I/O竞争越大
表越多，数据文件越多，占用操作系统句柄资源越多
Shard和表越多，元数据越多，ts-sql和ts-store与ts-meta之间同步元数据时延大，会造成数据读写性能波动

表的设计原则：

建表要结合查询场景做综合考虑
建表要充分考虑指标列数量，大于1000列，建议开始分表

openGemini数据写入最佳实践

现在跟大家分享一下客户端写数据最佳实践的注意事项：

客户端批量写入，减少网络交互
客户端并发写入，确保多批次数据之间时间线不存在交叉，减少乱序数据的产生
BatchSize指一次批量写入的数据大小，需多次实验，找到最为合适的值
ts-sql并发分发数据能力是一定的，增加sql数量才能处理更多数据
写入并发比较大的情况下，可以适当减小BatchSize，否则ts-store容易造成数据堆积

写性能的内核参数调优：正常情况下，业务的写QPS是趋于稳定的，当出现比较大的波动时，引起原因可能是：数据量增大导致wal时延增加、磁盘IO瓶颈、数据缓存堆积、Compaction阻塞等。

openGemini数据查询最佳实践

时间线比较多时（百万以上），如下查询场景要慎用，可能引发进程OOM：

全量时间线扫描，无TAG过滤
海量分组：TAG+Time | 细粒度Time
海量数据在ts-sql聚合场景（除first/last/count/sum/mean/min/max外）
海量时间线查询, tag1=xxx 可能对应百万时间线

openGemini 查询语句使用Tips：

1、查询返回的数据量比较多时，推荐添加查询参数：chunked=true&chunk_size=1000 ，可分批流式返回

例如：

curl -XPOST 'http://localhost:8086/query?db=mydb& chunked=true & chunk_size=1000 ' --data-urlencode 'q=SELECT * FROM mst'

2、在openGemini集群中，一条时间线数据只属于一个数据节点，因此在做简单查询时，可以使用Hint查询，直接定位到具体数据节点查询数据。

语法： /*+ full_series */

约束：查询条件必须包含所有的TAG

例如:

SELECT /*+ full_series */ mean(C) FROM mst WHERE A=“a1” AND B=“b1” AND time > xxx AND time < xxx

3、嵌套查询要遵循的原则：处在最里层的子查询尽可能通过TAG或者时间过滤数据，减少结果数据总量

例如：

SELECT * FROM
(SELECT temperature FROM disk_temp_monitor WHERE time > xxx AND time < xxx AND nd=“xxx” AND disk_type = SATA_HDD )
WHERE disk_type = SATA_HDD GROUP BY * LIMIT 1000

本次分享到这里就结束了，openGemini社区旨在打造开放、合作、包容的全球性技术社区，欢迎大家试用openGemini时序数据库，加入开源社区。

openGemini开源地址：https://github.com/openGemini

openGemini官网地址：https://opengemini.org