dbt-duckdb dbt duckdb 强大的adapter
dbt-duckdb 是一个dbt 扩展,功能很强大,同时社区也有相关的文章,使用duckdb 替换spark 处理一些数据的pipeline
因为duckdb 具有很不错的olap 性能,同时支持不少外部数据集成(比如s3,http,parquet,pg。。。。)dbt-duckdb
扩展使用起来很方便,而且对于dbt 的兼容是很不错的,以下是老外的一个实践,可以看到基于dbt 的一个集成玩法
说明
duckdb 是嵌入式单机环境的olap 数据库,具有很不错的性能,同时支持不少数据适配集成,对于作为一个小型轻量而且高速的分析方案也是一个很不错的选择
目前有一个motherduck 的可以让duckdb 类似serverless 模式运行
参考资料
https://duckdb.org/
https://docs.getdbt.com/docs/core/connect-data-platform/duckdb-setup
https://github.com/jwills/dbt-duckdb
https://motherduck.com/
https://medium.com/datamindedbe/use-dbt-and-duckdb-instead-of-spark-in-data-pipelines-9063a31ea2b5