摘要:
一、数据质量的好坏可以从数据的完整性、准确性、一致性和及时性等四个方面进行评估; 完整性:指数据的记录和信息是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失或者表字段信息的缺失,两者都会造成统计结果不准确,完整性是数据质量基础的保障。比如交易中每天支付订单数据都在100W左右,如果某一天数 阅读全文
摘要:
目前,公司里数据质量检测是通过配置规则报警来实现的,对于有些表需要用shell脚本来封装hivesql来进行检测,在时效性和准确上不能很好的满足,故尝试使用Deequ来做质量检测工具。 一、官网示例 package org.shydow.deequ import com.amazon.deequ.c 阅读全文