soda-data dremio 集成使用

以前简单介绍过soda 数据质量工具,以下是关于dremio 集成的一个说明

环境准备

python -m venv venv
source venv/bin/activate
pip install soda-core-dremio

使用

  • soda 配置
    注意以下配置,如果是软件的,token 配置为"", 否则,可能运行会有问题
    configuration.yml
data_source dremio:
  type: dremio
  driver: /Library/Dremio/ODBC/lib/libarrow-flight-sql-odbc.dylib
  host: localhost
  username: admin
  password: admin123
  schema: s3v2
  token: ""
  • 测试链接配置
soda test-connection -d dremio -c configuration.yml
  • sodacl 定义
    checks.yml
checks for dbt.dalongdemov2:
  - duplicate_count(name) = 0:
      name: No duplicate names

注意: 其中的多for 后边部分就是dremio 的datasets 地址

  • 执行scan
soda scan -d dremio -c configuration.yml checks.yml -srf app.json

效果

json结果

说明

基于soda 进行数据质量的处理还是很方便强大的,包含了很强大的cl 语言,可以方便的数据质量处理,和dremio 集成起来也是一个很不错的

参考资料

https://github.com/sodadata/soda-core
https://docs.soda.io/soda/quick-start-sip.html
https://docs.soda.io/soda/connect-dremio.html
https://docs.soda.io/soda-cl/metrics-and-checks.html
https://github.com/rongfengliang/dremio_cluster_docker-compose

posted on   荣锋亮  阅读(46)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-03-22 wails 基于golang 的跨平台开发解决方案
2023-03-22 dragonflydb 1.0 发布了
2023-03-22 jenkins jvm内存调整以及一些说明
2020-03-22 使用py-spy 分析python 应用的性能问题
2020-03-22 playwright 微软提供的基于nodejs包装多浏览器自动化测试包
2018-03-22 lapis docker 运行说明
2017-03-22 saas 系统租户个性化域名&&租户绑定自己域名的解决方案

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示