随笔分类 -  数据可观测性

deequ aws 开源的数据质量框架
摘要:deequ 是aws 开源的基于spark 的数据质量框架(数据单元测试),同时也提供了python 包 deequ 提供的能力 metrics 计算 约束建议 约束校验 metrics repo 参考架构图 说明 对于希望实现数据质量的团队deequ的设计还是很值得学习参考的,只是目前是基于spa 阅读全文

posted @ 2024-06-20 07:16 荣锋亮 阅读(188) 评论(0) 推荐(0) 编辑

dbt dq-tools 数据质量工具
摘要:dbt dq-tools 数据质量工具,对于数据质量 dq-tools 围绕 Accuracy,Consistency,Completeness,Timeliness,Validity,Uniqueness这6个kpi 进行处理 包含的功能 存储测试结果到表中 创建方便数据质量的数据集市 提供bi 阅读全文

posted @ 2024-06-18 06:50 荣锋亮 阅读(60) 评论(0) 推荐(0) 编辑

dbt dbt-audit-helper 包提供的一些方便macro
摘要:dbt-audit-helper 从字面意思是dbt 的审计帮助工具,但是实际上我们也可以使用此工具做一些数据质量相关的东西 dbt-audit-helper 提供的macro 比较数据输出 包含了compare_relations,compare_queries,compare_row_count 阅读全文

posted @ 2024-04-30 12:08 荣锋亮 阅读(21) 评论(0) 推荐(0) 编辑

dbt-checkpoint 确保dbt 项目质量的pre-commit hooks 工具
摘要:dbt-checkpoint 实际上属于pre-commit hooks plugin 实现了不少hooks 可以用来提升dbt 项目的模型质量内部处理上实际是对于dbt 的元数据进行解析,当然dbt-checkpoint 也提供了不少其他扩展 目前包含的hooks 只大概说明下,详细的后边介绍下, 阅读全文

posted @ 2024-04-16 19:38 荣锋亮 阅读(18) 评论(0) 推荐(0) 编辑

soda-data dremio 集成使用
摘要:以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明 环境准备 dremio dremio 基于docker 部署,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose soda soda 包 阅读全文

posted @ 2024-03-22 08:00 荣锋亮 阅读(47) 评论(0) 推荐(0) 编辑

soda 数据质量测试工具
摘要:soda 数据质量测试工具,可以方便的集成到ci/cd 中,同时支持的数据库也不少,soda 同时还提供了一个强大的metrcis 检查语言基于yaml 配置文件就可以实现强大的数据质量检测(也支持输出数据格式为json,方便分析) 说明 soda 同时也提供了data contract 的支持,对 阅读全文

posted @ 2024-03-21 08:00 荣锋亮 阅读(103) 评论(0) 推荐(0) 编辑

data contracts 参考资料
摘要:基于data contracts 的数据质量处理似乎是一个很不错的数据开发模式,机制上比较类似微服务开发中的service contracts 我们基于契约对于数据的生产者以及消费者进行约定,确保数据的质量,提高数据团队的协作,同时还有不少工具可以参考 说明 open-data-contract-s 阅读全文

posted @ 2024-03-01 08:01 荣锋亮 阅读(11) 评论(0) 推荐(0) 编辑

elementary 面向对象分析师的开源数据可观测工具
摘要:elementary 面向对象分析师的开源数据可观测工具,基于了dbt 包含的特性 数据可观测性报告 通过dbt tests 可以发现异常数据 测试结果 模型性能报告 数据血缘 dbt 制品上传 slack 同志 说明 elementary 实际上就是一个dbt 的扩展,实现了不少强大的功能,值得试 阅读全文

posted @ 2024-02-03 08:01 荣锋亮 阅读(26) 评论(0) 推荐(0) 编辑

dbt 数据可观测性相关的一些扩展包
摘要:随着大家对于数据质量越来越重视,数据可观测性已经成为一个比较重要的工程化实践了,dbt core 实际上已经包含了一些简单的数据质量能力(比如model schema 定义中关于test 的处理),但是默认的还是比较弱,所以社区以及dbt 官方提供了不少其他的扩展可以更好的支持数据质量,以下是一个整 阅读全文

posted @ 2023-10-07 10:15 荣锋亮 阅读(77) 评论(0) 推荐(0) 编辑

piperider 开源数据可靠性工具
摘要:piperider 是基于python 的数据可靠性工具,主持数据的profile ,数据的测试以及数据的可观测性以及监控 核心特性 基于sql,同时支持csv 数据profule 的特性,包含了metrcis以及重复,唯一,缺少。。。 数据测试,基于内置的断言定义 基于运行的profile启动生成 阅读全文

posted @ 2023-01-04 11:50 荣锋亮 阅读(177) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示