soda-data dremio 集成使用
以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明
环境准备
- dremio
dremio 基于docker 部署,具体可以参考https://github.com/rongfengliang/dremio_cluster_docker-compose - soda
soda 包含了library 以及core,我使用了core,不依赖cloud,基于venv
python -m venv venv
source venv/bin/activate
pip install soda-core-dremio
使用
- soda 配置
注意以下配置,如果是软件的,token 配置为"", 否则,可能运行会有问题
configuration.yml
data_source dremio:
type: dremio
driver: /Library/Dremio/ODBC/lib/libarrow-flight-sql-odbc.dylib
host: localhost
username: admin
password: admin123
schema: s3v2
token: ""
- 测试链接配置
soda test-connection -d dremio -c configuration.yml
- sodacl 定义
checks.yml
checks for dbt.dalongdemov2:
- duplicate_count(name) = 0:
name: No duplicate names
注意: 其中的多for 后边部分就是dremio 的datasets 地址
- 执行scan
soda scan -d dremio -c configuration.yml checks.yml -srf app.json
效果
json结果
说明
基于soda 进行数据质量的处理还是很方便强大的,包含了很强大的cl 语言,可以方便的数据质量处理,和dremio 集成起来也是一个很不错的
参考资料
https://github.com/sodadata/soda-core
https://docs.soda.io/soda/quick-start-sip.html
https://docs.soda.io/soda/connect-dremio.html
https://docs.soda.io/soda-cl/metrics-and-checks.html
https://github.com/rongfengliang/dremio_cluster_docker-compose
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
2023-03-22 wails 基于golang 的跨平台开发解决方案
2023-03-22 dragonflydb 1.0 发布了
2023-03-22 jenkins jvm内存调整以及一些说明
2020-03-22 使用py-spy 分析python 应用的性能问题
2020-03-22 playwright 微软提供的基于nodejs包装多浏览器自动化测试包
2018-03-22 lapis docker 运行说明
2017-03-22 saas 系统租户个性化域名&&租户绑定自己域名的解决方案