piperider 开源数据可靠性工具
piperider 是基于python 的数据可靠性工具,主持数据的profile ,数据的测试以及数据的可观测性以及监控
核心特性
- 基于sql,同时支持csv
- 数据profule 的特性,包含了metrcis以及重复,唯一,缺少。。。
- 数据测试,基于内置的断言定义
- 基于运行的profile启动生成推荐的断言
- 生成报告
- 生成比较报告
- 支持不少数据源,snowflake,bigquery,redshift,postgres,sqlite,duckdb,csv,parquet
说明
官方提供了几个示例报告可以快速体验piperider,最近几年数据质量,数据可靠性周边开源的工具是越来越多了,此项目也是值得学习参考的
同时这个团队也开源了一个制品版本控制系统,是一个挺有意思的项目
参考资料
https://www.piperider.io/
https://github.com/infuseai/piperider
https://piperider-github-readme.s3.ap-northeast-1.amazonaws.com/comparison-0.16.0/index.html#/tables/br_mobility_report/columns/
https://piperider-github-readme.s3.ap-northeast-1.amazonaws.com/run-0.16.0/index.html
https://github.com/InfuseAI/ArtiVC