摘要: 一、数据质量的好坏可以从数据的完整性、准确性、一致性和及时性等四个方面进行评估; 完整性:指数据的记录和信息是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失或者表字段信息的缺失,两者都会造成统计结果不准确,完整性是数据质量基础的保障。比如交易中每天支付订单数据都在100W左右,如果某一天数 阅读全文
posted @ 2022-03-25 17:32 Shydow 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。 一、官网示例 package org.shydow.deequ import com.amazon.deequ.c 阅读全文
posted @ 2022-03-25 17:22 Shydow 阅读(984) 评论(0) 推荐(0) 编辑