随笔分类 -  dbt

astronomer-cosmosy一个方便dbt 在apache airflow 运行的工具
摘要:dbt 在国外比较火,同时社区也提供了不少调度运行模式(core 部分没提供),研究apache airflow 是一个不错的选择,但是原生script 模式的调用比较简单,astronomer-cosmosy 提供了方便dbt 在apache airflow 通过dag 以及task groups 阅读全文

posted @ 2024-01-21 10:13 荣锋亮 阅读(87) 评论(0) 推荐(0) 编辑

sqlmesh 类似dbt 的工具
摘要:sqlmesh 是一个类似dbt 的工具,目前没有dbt 热度高,但是也提供了一些不错的周边 一些比较不错的功能点 open sosurce ui 列级别的血缘 native notebook 支持 多仓库支持 sql 转译 开源ci/cd bot 虚拟数据环境 原生airflow 集成 data 阅读全文

posted @ 2024-01-15 09:13 荣锋亮 阅读(124) 评论(0) 推荐(0) 编辑

dremio dbt + nessie 集成profile 简单说明
摘要:我最近写了一个简单的关于dremio 集成nessie 以及dbt 玩法的说明,以下简单说明下dbt 如何配置 配置说明 对于配置实际上与以前一些介绍类似,集成nessie 的使用与其他是类似的,只是集成nessie 之后我们的数据开发模型上就有了实际的版本了(dbt 集成git 之后也会包含版本, 阅读全文

posted @ 2024-01-13 23:07 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dremio+nessie+dbt+ cube.js 实现简单数据服务
摘要:以前我简单写过关于dremio与cube.js 集成的,随着dremio 官方自己维护了一个dbt 的adapter 以及nessie 方便的类似git 的多版本元数据服务的提供,将这几个集成在一起是一个很不错的选择,尤其是希望实现自己的headless bi 服务,同时利用dbt 强大的数据建模能 阅读全文

posted @ 2024-01-11 15:22 荣锋亮 阅读(84) 评论(0) 推荐(0) 编辑

datavault4dbt Scalefree的dbt datavault2.0 包
摘要:基于基于dbt 的datavault 2.0 实现还是不少的,可以加速模型的创建,以前简单介绍的automate-dv 也是一个类似的dbt包 包含的maccro Staging Area (For Hashing, prejoins and ghost records) Hubs, Links & 阅读全文

posted @ 2024-01-05 14:28 荣锋亮 阅读(13) 评论(0) 推荐(0) 编辑

基于dremio dbt 实现dremio 语义层建模的简单说明
摘要:简单说明下基于dbt +dremio 的语义层建模 参考玩法 如下图 简单说明 关于基于sql 模式的语义层建模详细的可以直接参考官方文档,我只简单说明下关于dbt 与dremio 集成的 集成简单说明 对于每个领域的子模型,可以包含自己的s3(按需,也可以共享,但是注意命名区分),对于每个dbt 阅读全文

posted @ 2023-12-15 16:31 荣锋亮 阅读(56) 评论(0) 推荐(0) 编辑

dremio dbt adapter 一些简单说明
摘要:dbt-dremio 是dremio 官方维护的dbt adapter ,目前还在持续迭代中 官方参考玩法 实际上核心是基于dbt +dremio 进行模型的创建 内部集成玩法 对于我们实际运行是需要对象存储服务的(比如使用minio),对象存储做为实际数据的物理存储,同时会使用apache ice 阅读全文

posted @ 2023-12-15 15:29 荣锋亮 阅读(28) 评论(0) 推荐(0) 编辑

dbt 数据可观测性相关的一些扩展包
摘要:随着大家对于数据质量越来越重视,数据可观测性已经成为一个比较重要的工程化实践了,dbt core 实际上已经包含了一些简单的数据质量能力(比如model schema 定义中关于test 的处理),但是默认的还是比较弱,所以社区以及dbt 官方提供了不少其他的扩展可以更好的支持数据质量,以下是一个整 阅读全文

posted @ 2023-10-07 10:15 荣锋亮 阅读(65) 评论(0) 推荐(0) 编辑

dbt dbt-project-evaluator 扩展
摘要:dbt-project-evaluator 是官方提供的一个dbt 扩展,可以方便的自动帮助我们发现模型DAG的问题 支持的功能 协助模型的最佳实践 协助测试的最佳实践 协助文档的最佳实践 协助项目文件结构的最佳实践 协助模型物化最佳实践 协助模型治理最佳实践 目前支持的数据库 bigquery d 阅读全文

posted @ 2023-09-30 11:14 荣锋亮 阅读(29) 评论(0) 推荐(0) 编辑

kestra 试用体验
摘要:kestra 官方是提供了基于docker-compose 运行的模版,以下主要是体验下,实际上kestra 提供的一些能力还是很强大的 尤其是强大的插件开发能力 环境准备 docker-compose 文件 volumes: postgres-data: driver: local kestra- 阅读全文

posted @ 2023-08-14 21:12 荣锋亮 阅读(1799) 评论(1) 推荐(1) 编辑

mage-ai 简单试用体验
摘要:主要测试下集成minio s3,同时体验下mage-ai 环境准备 docker-compose 文件 version: '3' services: minio: image: minio/minio ports: - "9003:9000" - "19002:19001" environment: 阅读全文

posted @ 2023-08-12 18:21 荣锋亮 阅读(368) 评论(0) 推荐(0) 编辑

dbt 官方提供的一些强大的周边扩展
摘要:官方提供的一些不错的dbt 周边扩展 metricflow 此功能属于dbt 语义曾的一个核心组件这个是官方在推广的,对于我们进行数据分析很不错,参考玩法 dbt-meshify 这个属于dbt core 的一个扩展,提供了创建group,contract,access,version 以及进行项目 阅读全文

posted @ 2023-08-12 12:21 荣锋亮 阅读(194) 评论(0) 推荐(0) 编辑

dbt 新的基于视图的物化能力
摘要:dbt 在v1.6 版本,官方提供的不少adapter 支持了基于视图的物化处理,这个是一个很不错的功能技术上利用了db 提供的能力,官方提供了相关的介绍,具体可以参考连接 参考资料 https://docs.getdbt.com/blog/announcing-materialized-views 阅读全文

posted @ 2023-08-08 23:15 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

dbt modules 宏简单说明
摘要:dbt modules 宏提供了让dbt 访问python 包的能力,处理上基于了jinja 的上下问处理,但是目前官方没有完整暴露此方法 核心还是因为安全问题,只提供了一些时间、正则、迭代处理的,实际使用上基于了python 模块的动态加载(getattr) modules 宏的使用参考 {% s 阅读全文

posted @ 2023-08-08 23:02 荣锋亮 阅读(60) 评论(0) 推荐(0) 编辑

jinjat 基于dbt 构建低代码数据应用
摘要:jinjat 的设计还是比较有意思的,直接利用了dbt,同时利用了一个analyses配置,analyses 在dbt 中更多属于一个基于现有的模型进行编译,但是不进行 执行,jinjat 就利用了功能,但是扩展了下 参考使用 模型 analysis/my_first_api.sql {%- set 阅读全文

posted @ 2023-08-06 11:39 荣锋亮 阅读(41) 评论(0) 推荐(0) 编辑

dbt-duckdb dbt duckdb 强大的adapter
摘要:dbt-duckdb 是一个dbt 扩展,功能很强大,同时社区也有相关的文章,使用duckdb 替换spark 处理一些数据的pipeline因为duckdb 具有很不错的olap 性能,同时支持不少外部数据集成(比如s3,http,parquet,pg。。。。)dbt-duckdb扩展使用起来很方 阅读全文

posted @ 2023-08-06 11:13 荣锋亮 阅读(280) 评论(0) 推荐(0) 编辑

dbt adapter 开发一些资料
摘要:dbt 演变以及周边工具是越来月多了,而且有不少db 已经支持dbt 的集成玩法了,官方提供了一些相关开发文档,一些不是很清晰对于我们实际需要开发的,就可以自己摸索,现在new sql 是越来越多了,但是并不是都能更好的支持dbt 内置的一些功能, 连接管理部分 这个部分官方有完整的信息,文档有提供 阅读全文

posted @ 2023-08-06 11:05 荣锋亮 阅读(63) 评论(0) 推荐(0) 编辑

automate-dv 基于dbt 的data vault 2.0 落地工具
摘要:automate-dv 基于dbt 的data vault 2.0 落地工具,包装了不少方便的宏,可以方便我们呢进行data vault 2.0 数据仓库建模理论的实际落地 功能 企业级保障 支持data vault 的hub,links,satelintes以及一些扩展(方便使用) 元数据驱动的代 阅读全文

posted @ 2023-08-04 23:10 荣锋亮 阅读(48) 评论(0) 推荐(0) 编辑

sqlfluff sql linter 以及自动格式化工具
摘要:sqlfluff sql linter 以及自动格式化工具 ,支持多数据库方言,以及模版代码,比较适合ELT 类型的数据分析应用,同时对于dbt 也是比较友好的 特性 多种数据库方言支持 支持模版(jinja,dbt) 可以很好的集成ci/cd dbt 参考效果 因为dbt 使用了jinja 模版引 阅读全文

posted @ 2023-08-04 22:56 荣锋亮 阅读(434) 评论(0) 推荐(0) 编辑

dbt pacakge 模型引用
摘要:dbt 的package 能力可以方便的实现模型的共享,以下是一个简单的示例,实际上我以前写过(很早了,目前dbt 变化还是很大的) 外部模型引用使用说明 实际上是通过ref宏,明确声明包名以及模型,格式{{ref(<project or package name>,<model name>)} 示 阅读全文

posted @ 2023-08-04 22:11 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

导航