soda-data dremio 集成使用
以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明
环境准备
- dremio
dremio 基于docker 部署,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose - soda
soda 包含了library 以及core,我使用了core,不依赖cloud,基于venv
python -m venv venv
source venv/bin/activate
pip install soda-core-dremio
使用
- soda 配置
注意以下配置,如果是软件的,token 配置为"", 否则,可能运行会有问题
configuration.yml
data_source dremio:
type: dremio
driver: /Library/Dremio/ODBC/lib/libarrow-flight-sql-odbc.dylib
host: localhost
username: admin
password: admin123
schema: s3v2
token: ""
- 测试链接配置
soda test-connection -d dremio -c configuration.yml
- sodacl 定义
checks.yml
checks for dbt.dalongdemov2:
- duplicate_count(name) = 0:
name: No duplicate names
注意: 其中的多for 后边部分就是dremio 的datasets 地址
- 执行scan
soda scan -d dremio -c configuration.yml checks.yml -srf app.json
效果
json结果
说明
基于soda 进行数据质量的处理还是很方便强大的,包含了很强大的cl 语言,可以方便的数据质量处理,和dremio 集成起来也是一个很不错的
参考资料
https://github.com/sodadata/soda-core
https://docs.soda.io/soda/quick-start-sip.html
https://docs.soda.io/soda/connect-dremio.html
https://docs.soda.io/soda-cl/metrics-and-checks.html
https://github.com/rongfengliang/dremio_cluster_docker-compose