随笔- 667 文章- 0 评论- 116 阅读- 155万

存储模型(行存/列存）对 TP 和 AP 业务的影响

基础的数据模型是以行和列组成的一张张表。通常行有一个唯一标识 Row Id，且存在有限个字段，字段就是列的值。行数可以达到非常大的量级，而列数通常是有限的。

行式存储就是，数据在存储介质（磁盘 or 内存）上的组织形式，是以行为单位的，即先放第一行所有的数据，再放下一行，这种方式比较符合人的直觉。列存就不一样了，它会把行的数据统统拆开，先存一列的数据，再存下一列。那这样的区别对于业务会有什么影响呢？

行存在 TP 场景 IO 次数少。比如这条 SQL：select col0, col1, col2, col3 from table where col0 = 100，只需要根据主键或者索引定位到这一行在什么地方，就可以用一次读 IO 返回所有需要的数据。列存就不行了，因为同一行的不同列的数据是分开存放的，就算你定位到了某一行的位置，这里还是需要 4 次读 IO 把相关的列数据读上来。
列存在 AP 场景读得快。看这条 SQL：select avg(col0), max(col1), col2 from table group by col2，它需要遍历全表数据来做聚合。这时候列存的优势就来了。因为对于一段列数据，它的类型是一样的，数据读上来之后不需要做拆列；并且如果这条 SQL 不涉及 col2，那么它是不用去读的。

当然这里只是简单的分析，在工程上，实际情况比这个复杂的多。在实际业务中，我们往往需要 TP 和 AP 的能力都需要。常见的做法是，分别用不同的数据库服务不同的负载。而纠结的是，TP 和 AP 的场景并不能完全割裂，有很多原因在推动 HTAP 数据库的出现和流行。

但是确实有一些尝试，试图调和行存和列存的矛盾，大概有几种类型：

如上内容来自于：韦万

posted @ 2022-06-15 14:38 Syw_文阅读(836) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· mysql binlog的三种格式及区别

· 【重要】数据库基础知识学习宝典

· 列存储和行存储区别

· 行式存储和列式存储的区别

· 对比分析数仓中行列存的特性

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

历史上的今天：
2017-06-15 appium 常用API使用总结！
2017-06-15 appium 提示报错“TypeError: 'unicode' object is not callable”的解决方式！

昵称： Syw_文
园龄： 7年10个月
粉丝： 290
关注： 6

2025年3月

日

一

二

三

四

五

六

Syw