dbt dbt-codegen 包简单说明
dbt-codegen 是一个比较方便的dbt 工具包,可以用来生成模型
目前包含的macro
- generate_source source 类的
生成source 信息,实际上就是生成source 的yaml 文件
参考运行命令
cli 模式,就是通过run-operation 执行macro
dbt --quiet run-operation generate_source --args '{"table_names": ["orders"]}' > models/staging/jaffle_shop/_sources.yml
通过macro 引用模式
{{ codegen.generate_source(schema_name= 'jaffle_shop', database_name= 'raw') }}
- generate_base_model 基础模型类的
cli 模式
dbt run-operation generate_base_model --args '{"source_name": "raw_jaffle_shop", "table_name": "customers"}'
macro 引用
{{ codegen.generate_base_model(
source_name='raw_jaffle_shop',
table_name='customers',
materialized='table'
) }}
- create_base_models 重复执行基础模型的创建
cli 模式
dbt run-operation codegen.create_base_models --args '{source_name: my-source, tables: ["this-table","that-table"]}'
- generate_model_yaml 生成模型yaml 格式内容
cli 模式
dbt run-operation generate_model_yaml --args '{"model_names": ["customers"]}'
macro 模式
{{ codegen.generate_model_yaml(
model_names=['customers']
) }}
- generate_model_import_ctes 生成cte 格式的模型sql 内容
cli 模式
dbt run-operation generate_model_import_ctes --args '{"model_name": "my_dbt_model"}'
macro 模式
{{ codegen.generate_model_import_ctes(
model_name = 'my_dbt_model'
) }}
内部实现简单说明
dbt-codegen 实际上就是利用内部的一些context 方法处理的,以下只简单说明下generate_base_model 的处理
- generate_base_model 内部处理
参考代码
{% macro generate_base_model(source_name, table_name, leading_commas=False, case_sensitive_cols=False, materialized=None) %}
# 标准的dispatch
{{ return(adapter.dispatch('generate_base_model', 'codegen')(source_name, table_name, leading_commas, case_sensitive_cols, materialized)) }}
{% endmacro %}
{% macro default__generate_base_model(source_name, table_name, leading_commas, case_sensitive_cols, materialized) %}
# 获取soruce 的relation
{%- set source_relation = source(source_name, table_name) -%}
# 通过adapter 获取关系包含的列信息
{%- set columns = adapter.get_columns_in_relation(source_relation) -%}
# 通过filter 获取列名称
{% set column_names=columns | map(attribute='name') %}
{% set base_model_sql %}
# 物化判断,默认是view
{%- if materialized is not none -%}
{{ "{{ config(materialized='" ~ materialized ~ "') }}" }}
{%- endif %}
# 此处包装类似我们编写模型的模式
with source as (
select * from {% raw %}{{ source({% endraw %}'{{ source_name }}', '{{ table_name }}'{% raw %}) }}{% endraw %}
),
renamed as (
# 通过获取的列进行cte 查询的包装
select
{%- if leading_commas -%}
{%- for column in column_names %}
{{", " if not loop.first}}{% if not case_sensitive_cols %}{{ column | lower }}{% elif target.type == "bigquery" %}{{ column }}{% else %}{{ "\"" ~ column ~ "\"" }}{% endif %}
{%- endfor %}
{%- else -%}
{%- for column in column_names %}
{% if not case_sensitive_cols %}{{ column | lower }}{% elif target.type == "bigquery" %}{{ column }}{% else %}{{ "\"" ~ column ~ "\"" }}{% endif %}{{"," if not loop.last}}
{%- endfor -%}
{%- endif %}
from source
)
select * from renamed
{% endset %}
# 判断是否是执行环境
{% if execute %}
# 终端输出模型sql 信息,方便使用(比如重定向,或者复制)
{{ print(base_model_sql) }}
{% do return(base_model_sql) %}
{% endif %}
{% endmacro %}
说明
dbt-codegen 实际上也属于官方推荐的一个不错的dbt 包,可以快速的生成系统一些模型,加速开发
参考资料
https://docs.getdbt.com/reference/dbt-jinja-functions/print
https://github.com/dbt-labs/dbt-codegen