深入理解 dbt 增量模型

想要实现数据增量写入数据库，可以选择 dbt 增量模型。通过 dbt 增量模型，我们只用专注于写日增 SQL，不用去关注于如何安全的实现增量写入。

dbt 增量模型解决了什么问题

原子性写入：任何情况下，增量写入只有一个程序在写入。

假设增量程序已经上线，线上增量程序在执行的同时，开发也在本地执行增量程序。俩分程序同时执行，难以保证线上数据的正确性。

如何使用 dbt 增量写入

{{config(
    materialized='incremental',
    unique_key=['unique_key', 'time_column'],
    incremental_strategy='merge'
)}}
    
select * 
from table
where time_column >= date_add('day', -1, current_timestamp)

dbt 执行增量写入流程

delete + insert
- drop if exists tmp_table
- create tmp_table as ( incremental sql )
- delete from table where file in ( select file in tmp_table ) and file2 in ....
- insert into table select * from tmp_table
merge
- drop if exists tmp_table
- create tmp_table as ( incremental sql )
- merge into table use tmp_table

delete + insert 的增量流程是有问题的

会出现原表中的数据被删除但新的数据没进来的情况
- 例如程序A执行完 delete 操作，程序B 执行完 drop tmp_table，此时程序A insert 是失败的，于是就导致了旧数据被删除了，但新数据没插入的情况。
表是有一段时间查不到数据
- 因为 delete 和 insert 是俩步操作，在<delete, insert> 这间隔内，此时查询表内数据，是查不到数据的。

但 merge 模型下的增量写入就没有上述的问题，原因是 merge 是原子性操作，所以更新数据时候不会存在删数据和插数据的间隔，于是就能避免以上问题。

dbt 创建tmp表也是一个很妙的地方，通过 tmp 表能实现增量写入是原子操作

例如在 merge 模式下，并发执行增量程序，会出现以下执行异常：

tmp_table is exist
- 俩程序在同时在执行 create_tmp，执行慢的那个便会创建 tmp 表失败，于是便没有 merge 操作。
tmp_table is not exist
- 程序A 创建好的 tmp 表，被程序B drop 掉。于是程序A的 merge 操作失败，程序B 继续执行。

通过以上俩个异常，能保证 dbt 不管在什么情况下，只有一个增量程序在执行。

总结

以上便是 dbt 增量模型的一些细节，我们在选择 dbt 做增量时，要尽量选择 merge 模式。如果是自己想要实现增量写入，也可以参考 dbt merge 模型的流程。

posted @ 2023-01-01 14:57 meicanhong 阅读(652) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· mongo踩坑-upsert插入重复数据

· Trino Master OOM 排查记录

· |NO.Z.00056|——————————|BigDataEnd|——|Hadoop&Sqoop.V04|——|Sqoop.v04|增量数据导入|

· 从零开始的 dbt 入门教程（dbt core 命令进阶篇）

· 如何正确的做增量加工

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾（3.3-3.9）
· winform 绘制太阳，地球，月球运作规律

公告

欢迎关注我的Github https://github.com/meicanhong

昵称： meicanhong
园龄： 5年7个月
粉丝： 4
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案 (10)

文章档案 (6)

阅读排行榜

评论排行榜

1. 折腾黑苹果-小新Pro13(2)

推荐排行榜

1. Trino Master OOM 排查记录(2)

最新评论

1. Re:Trino Worker 规避 OOM 思路
@liuzx8888 加我微信 13059277414...
--meicanhong
2. Re:Trino Worker 规避 OOM 思路
博主你好，按照这个文章的思路配置，我搭建的trino的环境还是非常的不稳定，同样的机器用presto跑起来就很稳定，关于trino的内存配置，如果方便的话能否给个联系方式跟你请教一下，万分感谢！！！！...
--liuzx8888
3. Re:折腾黑苹果-小新Pro13
@呀哈哈999 这台电脑我已经出掉了你说的电池问题我也遇到了，我没去解决。 oc 升级我是用 OCAuxiliaryTools 这款工具，Github 有我的 efi 文件，替换 efi 前记得...
--meicanhong
4. Re:折腾黑苹果-小新Pro13
大佬的教程很给力，我用了有一段时间的bigsur了，但是最近电池有点问题，有时候突然从50%一下子掉光弹出关机界面，猜测是哪里弄坏了。然后折腾了两天想升级一下oc，结果左右都不行，照着整个教程搞了一...
--呀哈哈999