08 2023 档案

oceanbase odc 开源了
摘要:我以前也打开简单说过,oceanbase odc 的实现(通过同时猜测的),就在今天odc 整体源码开源了,对于需要自己扩展的同学是比较方便的,同时也可以更好的学习odc 的实现机制 目前odc 包含的组件 client web 前端,同时也有基于electron 包装的客户端,会启动jar 暴露的 阅读全文

posted @ 2023-08-30 21:32 荣锋亮 阅读(113) 评论(0) 推荐(0) 编辑

apache spark connect 试用
摘要:spark connect 3.4 开始就支持了connect 模式,3.4.1 比较稳定了 connect server 启动 实际上就是一个spark 引用,通过spark_submit 提交到spark 环境中 启动 ./sbin/start-connect-server.sh --packa 阅读全文

posted @ 2023-08-22 22:02 荣锋亮 阅读(459) 评论(0) 推荐(0) 编辑

spark on k8s 开发部署简单实践
摘要:实际上就是一个简单的实践,方便参考,对于开发以及运行,集成ci/cd 以及dophinscheduler 任务调度为了方便开发的spark 应用共享以及使用基于s3 进行文件存储(当然dophinscheduler 也是支持自己的资源库的) 参考图 玩法说明 基于gitlab 进行代码管理,通过ci 阅读全文

posted @ 2023-08-21 22:38 荣锋亮 阅读(134) 评论(0) 推荐(0) 编辑

kestra 试用体验
摘要:kestra 官方是提供了基于docker-compose 运行的模版,以下主要是体验下,实际上kestra 提供的一些能力还是很强大的 尤其是强大的插件开发能力 环境准备 docker-compose 文件 volumes: postgres-data: driver: local kestra- 阅读全文

posted @ 2023-08-14 21:12 荣锋亮 阅读(1796) 评论(1) 推荐(1) 编辑

kestra apache airflow 可选方案
摘要:今天我有简单说明过一个mage-ai 的airflow 替换方案,kestra 是另外一个可选方案kestra 使用了yaml 进行piepline 的配置,当然我们也可以直接在ui 中操作,kestra包含了自己的插件系统 适合的业务场景 数据调度 分布式调度 事件驱动workflow 说明 ke 阅读全文

posted @ 2023-08-12 18:28 荣锋亮 阅读(307) 评论(0) 推荐(0) 编辑

mage-ai 简单试用体验
摘要:主要测试下集成minio s3,同时体验下mage-ai 环境准备 docker-compose 文件 version: '3' services: minio: image: minio/minio ports: - "9003:9000" - "19002:19001" environment: 阅读全文

posted @ 2023-08-12 18:21 荣锋亮 阅读(368) 评论(0) 推荐(0) 编辑

mage-ai 替换airflow 的现代数据pipeline 平台
摘要:mage-ai 是一个可以替换airflow 的现代数据pipeline 平台 包含的特性 友好的开发体验 支持python,sql,r 语言 不以来DAG 的可开发模式 交互式代码 数据优先 基于云的协作 快速部署 扩展简单 提供可观测性 说明 官方提供来的demo 站点,可以方便的体验学习,目前 阅读全文

posted @ 2023-08-12 13:09 荣锋亮 阅读(271) 评论(0) 推荐(0) 编辑

python 新的包构建模式
摘要:实际上是PEP 517 的定义,主要是对于基于distutils以及setuptools 已经存在太久的时间了,需要一些调整了目前已经有了不少相关的实现了,同时也有不少python 包的开发就是基于了新的规范了,hatch 以及poetry 是一个不错的选择 说明 关于python包开发的,有一本很 阅读全文

posted @ 2023-08-12 12:35 荣锋亮 阅读(31) 评论(0) 推荐(0) 编辑

dbt 官方提供的一些强大的周边扩展
摘要:官方提供的一些不错的dbt 周边扩展 metricflow 此功能属于dbt 语义曾的一个核心组件这个是官方在推广的,对于我们进行数据分析很不错,参考玩法 dbt-meshify 这个属于dbt core 的一个扩展,提供了创建group,contract,access,version 以及进行项目 阅读全文

posted @ 2023-08-12 12:21 荣锋亮 阅读(194) 评论(0) 推荐(0) 编辑

dbt 新的基于视图的物化能力
摘要:dbt 在v1.6 版本,官方提供的不少adapter 支持了基于视图的物化处理,这个是一个很不错的功能技术上利用了db 提供的能力,官方提供了相关的介绍,具体可以参考连接 参考资料 https://docs.getdbt.com/blog/announcing-materialized-views 阅读全文

posted @ 2023-08-08 23:15 荣锋亮 阅读(40) 评论(0) 推荐(0) 编辑

dbt modules 宏简单说明
摘要:dbt modules 宏提供了让dbt 访问python 包的能力,处理上基于了jinja 的上下问处理,但是目前官方没有完整暴露此方法 核心还是因为安全问题,只提供了一些时间、正则、迭代处理的,实际使用上基于了python 模块的动态加载(getattr) modules 宏的使用参考 {% s 阅读全文

posted @ 2023-08-08 23:02 荣锋亮 阅读(60) 评论(0) 推荐(0) 编辑

cookiecutter python 项目模版工具
摘要:cookiecutter python 项目模版工具,可以帮助我们快速基于模版生成python 项目(当然也支持c 项目)有不少python 项目都是基于此工具的比如dbt adapter 开发就基于此提供了方便的adapter 生成 dbt adapter 参考模版 cookiecutter 创建 阅读全文

posted @ 2023-08-06 21:10 荣锋亮 阅读(52) 评论(0) 推荐(0) 编辑

dperf minio 团队开源的磁盘性能测试工具
摘要:dperf minio 团队开源的磁盘性能测试工具 基于golang 开发,使用简单,类似的有fio 说明 相比fio dperf 没有那么多的参数,实际上dperf 核心似乎主要是为了方便minio 使用的,但是对于日常中需要测试一些磁盘问题也是可以的,可以用来发现磁盘的瓶颈 参考资料 https 阅读全文

posted @ 2023-08-06 12:06 荣锋亮 阅读(141) 评论(0) 推荐(0) 编辑

jinjat 基于dbt 构建低代码数据应用
摘要:jinjat 的设计还是比较有意思的,直接利用了dbt,同时利用了一个analyses配置,analyses 在dbt 中更多属于一个基于现有的模型进行编译,但是不进行 执行,jinjat 就利用了功能,但是扩展了下 参考使用 模型 analysis/my_first_api.sql {%- set 阅读全文

posted @ 2023-08-06 11:39 荣锋亮 阅读(41) 评论(0) 推荐(0) 编辑

dbt-duckdb dbt duckdb 强大的adapter
摘要:dbt-duckdb 是一个dbt 扩展,功能很强大,同时社区也有相关的文章,使用duckdb 替换spark 处理一些数据的pipeline因为duckdb 具有很不错的olap 性能,同时支持不少外部数据集成(比如s3,http,parquet,pg。。。。)dbt-duckdb扩展使用起来很方 阅读全文

posted @ 2023-08-06 11:13 荣锋亮 阅读(280) 评论(0) 推荐(0) 编辑

dbt adapter 开发一些资料
摘要:dbt 演变以及周边工具是越来月多了,而且有不少db 已经支持dbt 的集成玩法了,官方提供了一些相关开发文档,一些不是很清晰对于我们实际需要开发的,就可以自己摸索,现在new sql 是越来越多了,但是并不是都能更好的支持dbt 内置的一些功能, 连接管理部分 这个部分官方有完整的信息,文档有提供 阅读全文

posted @ 2023-08-06 11:05 荣锋亮 阅读(63) 评论(0) 推荐(0) 编辑

automate-dv 基于dbt 的data vault 2.0 落地工具
摘要:automate-dv 基于dbt 的data vault 2.0 落地工具,包装了不少方便的宏,可以方便我们呢进行data vault 2.0 数据仓库建模理论的实际落地 功能 企业级保障 支持data vault 的hub,links,satelintes以及一些扩展(方便使用) 元数据驱动的代 阅读全文

posted @ 2023-08-04 23:10 荣锋亮 阅读(48) 评论(0) 推荐(0) 编辑

sqlfluff sql linter 以及自动格式化工具
摘要:sqlfluff sql linter 以及自动格式化工具 ,支持多数据库方言,以及模版代码,比较适合ELT 类型的数据分析应用,同时对于dbt 也是比较友好的 特性 多种数据库方言支持 支持模版(jinja,dbt) 可以很好的集成ci/cd dbt 参考效果 因为dbt 使用了jinja 模版引 阅读全文

posted @ 2023-08-04 22:56 荣锋亮 阅读(433) 评论(0) 推荐(0) 编辑

dbt pacakge 模型引用
摘要:dbt 的package 能力可以方便的实现模型的共享,以下是一个简单的示例,实际上我以前写过(很早了,目前dbt 变化还是很大的) 外部模型引用使用说明 实际上是通过ref宏,明确声明包名以及模型,格式{{ref(<project or package name>,<model name>)} 示 阅读全文

posted @ 2023-08-04 22:11 荣锋亮 阅读(24) 评论(0) 推荐(0) 编辑

oracle 轻量级python连接驱动
摘要:实际上oracle python 驱动自从去年5月左右就提供了thin 模式,对于通过python 连接oracle 的同学是特别的,轻量方便 新版本oracle 驱动支持模式 从下图也可以看出来,支持可选的oracle client 模式 参考使用 oracle 部署(docker-compose 阅读全文

posted @ 2023-08-01 08:26 荣锋亮 阅读(165) 评论(0) 推荐(0) 编辑

oracle docker 运行
摘要:对于需要进行oracle 数据库测试场景,基于容器运行一个是很不错的选择,同时官方也提供了docker镜像,可以快速拿来使用 运行 docker-compose 文件 实际需要注意的是sid 以及用户密码,详细可以参考以下链接 version: '3' services: oracle: image 阅读全文

posted @ 2023-08-01 08:10 荣锋亮 阅读(71) 评论(0) 推荐(0) 编辑

导航