大数据-拉链表模型

　　拉链表是一种维护历史状态，以及最新状态数据的一种表。拉链表根据拉链粒度的不同，去除了一部分不变的记录，通过拉链表可以很方便的还原出拉链时点的客户记录，实际上相当于快照。

拉链表特征

1）记录一个事物从开始，一直到当前状态的所有变化的信息；
2）每次上报的都是历史记录的最终状态，是记录在当前时刻的历史总量；
3）当前记录存的是当前时间之前的所有历史记录的最后变化量（总量）；
4）存量一般设计成拉链表（月报 - 常用、日报）；
5）关链时间可以是3000年，9999等比较大的年份,例如[2022-07-01,9999-12-31]
表示连续的状态，因为开始时间为2022-07-01，闭合时间为未知；

拉链表适用场景

1) 数据量比较大。
2) 表中的部分字段会被更新，比如用户的地址，银行利率，订单的状态等。

3) 需要查看某一个时间点或者时间段的历史快照信息，比如，查看利率在历史某一个时间点的状态。

4) 变化的比例和频率不是很大，比如，总共有1000万的会员，每天新增和发生变化的有10万左右。

5) 如果对这边表每天都保留一份全量，那么每次全量中会保存很多不变的信息，对存储是极大的浪费;
拉链历史表，既能满足反应数据的历史状态，又可以最大程度的节省存储。

举个栗子：

假如有张表如表1-1所示，每天的数据量大概有50w
表中有些字段会被 update，如表1-2，且每天更新的数据量很小，大约只有5k
有些报表需要查看历史某个日期的数据
存储空间有限，需要尽可能的节约存储空间

表1-1

id	name	phone
1	Agnes	123
2	Max	456
3	Tony	789

表1-2

id	name	phone
1	Agnes	123
2	Max	456
3	Tony	321

方法1：每天追加一份全量数据

这样可以根据日期查看历史的数据，但是没有改变的数据会产生数据产生大量冗余，浪费存储空间，时间一长会非常浪费。

方法2：直接覆盖原数据

这样存储空间虽然节省了，但是历史数据会被覆盖，没有办法反应历史数据的变化

方法3：使用拉链表

　　在原始表的基础上，增加start_datte和end_date，第一次抽取的时候，将start_date初始化为抽取日期，end_date初始化为永久日期，形成一个开区间[20231018,99999)

id	name	phone	start_date	end_date
1	Agnes	123	20231018	99999999
2	Max	456	20231018	99999999
3	Tony	789	20231018	99999999

之后抽取的时候，将end_date改为当前抽取的日期，形成两个区间：[20231018,20231019]和[20231019,99999999)

id	name	phone	start_date	end_date
1	Agnes	123	20231018	99999999
2	Max	456	20231018	99999999
3	Tony	789	20231018	20231018
3	Tony	321	20231019	99999999

拉链表如何实现

方法一：

（1）获取当日数据；

（2）比较当日数据及历史数据，找出新增和变化的数据，存到临时表，并将开始日期置为当前日期，结束日期置为最大日期；

（3）将历史数据表中的变化数据的结束日期更新为当前日期，即闭链；

（4）将临时表的新增和变化数据插入历史数据表中，即开链。

方法二：

（1）获取当日数据；

（2）比较当日数据和昨日数据，找出新增数据和变化后数据；

（3）比较昨日数据和当日数据，找出删除数据和变化前数据；

（4）删除历史数据表中的删除数据和变化前数据；

（5）将新增数据和变化后数据插入历史数据表中，把开始日期置为当前日期，结束日期置为最大日期；

（6）将删除数据和变化前数据插入历史数据表中，把结束日期置为当前日期。

方式一比较简洁；在数据量比较大的情况下，方式二效率比较高，因为用删除插入的操作替代更新的操作，当然，这是对于传统数据库而言，具体的方式应根据实际数据量和数据库来制定。

https://blog.csdn.net/weixin_43596734/article/details/129855284

posted @ 2023-10-18 14:23 做个读书人阅读(93) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· MySQL的几种日志

· ElasticSeasrch

· 数仓-拉链表

· 离线数仓中的拉链表

· 【数仓面试】什么是拉链表？

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配，妙~啊~
· .NET Core 中如何实现缓存的预热？

公告

昵称：做个读书人
园龄： 7年6个月
粉丝： 14
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

做个读书人

计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决!

大数据-拉链表模型

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论