数据质量 —— 一些理解

一、数据质量的好坏可以从数据的完整性、准确性、一致性和及时性等四个方面进行评估;

  • 完整性:指数据的记录和信息是否完整,是否存在缺失的情况,数据的缺失主要包括记录的缺失或者表字段信息的缺失,两者都会造成统计结果不准确,完整性是数据质量基础的保障。比如交易中每天支付订单数据都在100W左右,如果某一天数据量出现陡增或者陡减的现象(分位数或者3分位差),那么可能出现记录丢失;或者说某个字段缺失,比如订单ID,商品ID这些都是必然存在的,NULL值个数肯定为0,当出现大于0则违背完整性约束。怎么确定问题是正常或者异常呢?数据记录出现陡增陡减时,先确定是否由于某个活动,某个促销引起的,相应的记录数会出现增加这属于正常现象;或者由于埋点数据或者同步数据重复上报和失败重试导致的,目前调度平台会有重试次数的记录,此种情况很少见。
  • 准确性:指数据中记录的信息和数据是否正确,是否存在异常或者错误的信息。比如某一笔订单的金额为负数,或者订单关联信息不在某个枚举范围内,这些是肯定存在问题的。
  • 一致性:指对于同一份数据,必须保证一致性。数据字段在不同阶段不同消费节点类型和长度始终是保持一致的。
  • 及时性:在保证数据的完整性,准确性,一致性的情况下,能够保证数据能够及时产出

二、数据质量建设方法

  1)业务场景知晓:通过数据资产和基于元数据分析来解决消费场景的问题;一般根据数据的影响程度,来确定资产等级,根据数据链路,将资产等级上推至生产中各个环节,资产等级的不同采取不同的处理方式;
        节点变更/数据冲刷  ->  上下游业务知晓

     2)数据生产各个环节检验:根据资产等级的不同,当对应的业务系统数据变更时,决定是否将变更通知下游;

     3)风险点监控:基于业务规则和自定义规则,进行数据质量监控和时效性监控

     4)质量衡量:确定质量问题的原因、责任人、解决情况,并用于数据质量的复盘,避免类似事件再次发生

     5)数据资产等级:毁灭性质,全局性质,局部性质,一般性质,未知性质;通过元数据管理和上下游血缘关系进行标签化处理;其等级一般由下游业务重要程度决定

     6)告警机制:出错告警、完成告警、未完成告警、超市告警、自定义告警
 
三、数据整合与管理体系
 
  数据建设的方法论核心:从业务架构到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。即以数据服务为核心,数据质量和数据治理来提升数据服务的准确度,以及作用于数据产品
  定位及价值:建设统一规范化的数据接入层和数据中间层,通过数据服务和数据产品服务于统一建设
  体系结构:事实表,维表,指标
 
posted @ 2022-03-25 17:32  Shydow  阅读(405)  评论(0编辑  收藏  举报