如何衡量数据质量
如何衡量数据质量
本文讨论了关键指标以及数据质量对业务绩效、创新和竞争力的重要性。
据 Gartner 称,由于数据质量差,所有业务计划中有 40% 未能实现预期收益。
开始的关键:您必须确定在您的业务决策和流程中驱动 80% 价值的 20% 数据,然后在更广泛地应用这些技术之前,优先考虑对高价值数据子集的质量改进和测量工作.
您需要可靠的信息来做出有关业务风险和结果的决策。通常,这些信息非常有价值,您可以尝试直接通过第三方数据提供商购买,以扩充您的内部数据。但是,您多久考虑一次数据质量对您的决策的影响?不良信息可能对业务决策产生不利影响,从而对公司的业绩、创新和竞争力产生不利影响。
将信息视为企业资产的组织必须采用与其传统资产相同的质量评估纪律。这意味着持续监控和改进您信息的质量和价值。
评估数据质量是衡量信息资产整体价值的一个很小但非常重要的组成部分。
客观的数据质量指标
最常见的数据质量指标可分为以下几类:
- 有效性: 每个可用数据字段代表现实的准确程度如何?
- 屋顶: 有多少百分比的事件或感兴趣的对象有记录?例如,如果您关心所有北美公司,那么数据集中代表了多少百分比的北美公司?
- 完整性: 在提供的所有记录中,有多少百分比的可用字段具有值?
- 正直: 如果数据中存在关系,相关属性之间的期望多久被违反?例如,一家公司的筹款总额必须始终等于该公司个人筹款活动的总和,或者外键必须始终指向现有记录(参照完整性)。
- 一致性: 数据集中和跨数据集的数据格式和结构的一致性如何?
- 复制: 所有记录中有多少是重复的?
- 精确: 数据的准确性如何?文本或图像等非结构化数据的详细程度如何?所提供数据的交付频率是多少?
- 时效性: 数据在给定时间代表现实世界中的值的概率是多少?请注意,我们对现实世界中发生的事件与数据集中出现的事件之间的时间间隔不感兴趣。在实践中,这非常难以验证,公司通常更关心数据集与源的同步,而不是时间延迟本身。
- 可访问性: 可以访问数据并从中受益的业务流程或人员的数量。
主观数据质量指标
并非数据质量的所有方面都可以脱离其与用户的关系来考虑。一些质量指标纯粹是主观的,但对数据资产的利用有重大影响。这些指标通常通过用户调查来衡量。
- 信誉: 用户是否信任他们正在查看的数据,或者它是否被规避或被类似信息的替代来源所取代?
- 可用性: 从数据中提取价值以执行某些业务功能的难易程度如何?
- 客观性: 数据源在用户眼中的公正程度如何?
- 我 可解释性: 数据的可理解性如何?是否有足够的文档来支持原始数据?
请注意,人们可能会使用“质量”一词来表示数据的价值,但这是一个很深的话题,将在下一篇文章中单独讨论。
在实践中测量数据质量
数据质量度量有多种用途,其中之一是管理所产生信息的质量。
单独的测量行为已经可以提高数据质量,影响人们管理和使用数据的方式的改变。您还可以使用这些做法来比较声称在所有竞争对手中拥有最佳数据质量的第三方数据提供商。
在实践中,当您在数据流最多的地方应用此测量练习时,您可能会看到最大的增长。这往往是在软件系统和分析数据管道之间。事实上,如果您已经很好地检测了您的业务,那么来自第三方提供商和业务流程的大部分数据都应该流入可以集中进行质量监控的存储中。
实施数据质量监控
虽然进行调查以衡量主观数据质量相对简单,但客观指标的实施可能具有挑战性。在 9 个客观数据质量指标中,只有完整性、完整性、准确性和可访问性指标可以完全自动化。
您可以通过对用 SQL、另一种编程语言或专用软件编写的数据进行测试来监控这些指标。使用 SQL 监控数据质量的一种方法是创建跟踪“数据质量视图”的 BI 仪表板,这些视图运行错误的数据查询,返回任何违背预期的行。
或者,这些数据测试可以作为转换管道的一部分或先决条件,使用诸如用于 dbt 的 dbt-expectations 或通用编排工作流中的 Great Expectations Docs 库之类的工具。
Para verificações de qualidade automatizadas, você deve verificar suas expectativas antes e depois de cada nó de processamento de dados que move e transforma seus dados (se o custo permitir).
对于其他指标,您可以从循环中的人开始提供真相,并使用随机抽样从统计测试提供的效率中受益。在某些情况下,您不仅可以利用自动化来衡量,还可以解决其中一些数据问题。
下面,我们描述了可用于逐个字段评估数据质量指标的策略示例。要为特定数据集开发整体“完整性分数”,您可以根据需要应用额外的聚合。
有效性
场精度 = [ # 具有准确字段信息的记录 ] / [ # 字段中有值的记录 ]
要获得每个字段的准确性,您需要一些您认为绝对真实的“黄金记录”。您可以通过手动注释实体集或使用替代的高精度数据源作为代理来获得这个基本事实。
屋顶
领域覆盖率 = [ # 数据集中的真实世界实体 ] / [ # 真实世界的实体 ]
如果您的实体“宇宙”是预定义的或易于估计的,您可以获得覆盖率的自动测量。如果不是这种情况,您可以使用“错过”事件的数量作为覆盖范围的代理。当您注意到某些实体已丢失时,可以在您的业务流程中捕获这一点。
现场未命中率 = [ # 错过了真实世界的实体接触系统 ] / [ # 真实世界的实体接触系统 ]
复制
复制率 = [ # 检测到重复项 ] / [ # 未给定的总记录集 s]
这个看似简单的指标非常难以衡量,因为重复记录很难检测到。您可以使用人工注释器和智能采样策略来估算数据集的总体重复率,但这很难扩展。
鉴于您的最终目标是消除重复,最好使用外部软件供应商。这主要是为个人和公司解决的问题,通用的重复数据删除策略可用于不太常见的重复问题。
如果记录邮件提供商无法满足您的需求,您将不得不从头开始准备记录重复数据删除过程(如果您希望在下一篇文章中了解这个主题,请告诉我)。
最终,您能做的最好的事情是实施适当的验证以防止重复进入您的系统,因为防止数据输入问题往往比纠正它们容易得多。
警告!
小心处理重复数据删除,因为有时重复记录是现实世界中的重复事件或单独的实体。理想情况下,重复数据删除不应该是破坏性操作,记住应该保留通信和操作的审计日志。
准时
准时= [ # 数据集中准确表示当前真实值的记录 ] / [ # 总记录 ]
正如我们之前解释的那样,很难测量真实世界事件与其在数据集中出现的时钟时间差异。此外,它不如观察数据时值同步的概率重要。
为了衡量及时性,你可以从你有当前值(或刚刚记录)的“黄金记录”中抽取一小部分样本,并计算相应值与记录总数的比率。
可访问性
可访问性指标高度依赖于上下文。您可能会发现衡量一段时间内访问数据的用户数量就足够了。或者,您可能对数据可用的系统数量感兴趣,并将其与数据相关或适用的系统数量进行比较。
在上述指标中,建议我们引入“循环中的人”来提供目标值的可靠注释并不罕见。要在实践中实现这一点,您可以使用低代码和无代码平台(例如 retool 或 bubble)在几小时内加快注释过程。
从抽样过程中得出的指标仅提供可能产生此结果的潜在值分布的平均值。您可能对量化采样过程引入的不确定性感兴趣,为了实现这一点,您可以通过参数化 Beta 分布来计算观测值的 90% 置信区间,如下所示:
公制 ~ 贝塔 ( ⍺ = 分子 + 1 , β = 分母 — 分子 + 1 )
从“权利”和“未命中”的角度来考虑它的一种简单方法:
公制 ~ 贝塔 ( ⍺ = 命中 + 1 , β = 命中 + 1 )
要使用 Excel 或 Google 表格获得指标的 90% 置信区间界限,您可以使用 BETA.INV(probability, ⍺, β) 函数。
例如,如果您在 50 个随机样本中检测到 1 个重复,您将按如下方式计算阈值:
复制率 = [ # 检测到重复项 ] / [ # 数据集中的总记录 ]
5% 下限 = > BETA.INV(0.05, 1+1, 49+1) = 0.7%
95% 上限 = > BETA.INV(0.95, 1+1, 49+1) = 8.9%
这意味着我们有 90% 的机会以 0.7% 到 8.9% 的总体翻倍率获得结果!
了解与您的指标相关的不确定性肯定有助于确定您的数据质量是实际发生变化还是仅仅是与随机过程相关的波动的产物。
结论
我们探索数据质量的核心维度以及如何衡量它们以减少由于不可靠信息而采取的路径所产生的浪费。
Reprodução: as 13 dimensões da qualidade de dados.
跟踪这些数据质量指标的目的不是为了获得完美的测量结果,而是确定我们是否朝着正确的方向前进,最重要的是,根据这些信息采取行动以改进我们的流程。
在尝试衡量贵公司所有系统的数据质量之前,我想提醒您,并非所有数据都具有相同的价值,而且衡量也不是免费的。您必须确定在您的业务决策和流程中驱动 80% 价值的 20% 数据,以确定您的工作的优先级。
但是,您如何准确地评估和衡量数据的价值,我们如何利用这些知识来制定我们的数据战略?
triggo.ai 专注于数据分析和人工智能,是 XOps (DataOps|ModelOps|MLOps) 的先驱,将可观察性和数据质量放在首位, 与我们的一位专家交谈 !
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明