数据治理中的数据血缘关系是什么？用来解决什么问题

前言：

数据血缘属于数据治理中的一个概念，是在数据溯源的过程中找到相关数据之间的联系，它是一个逻辑概念。

数据治理里经常提到的一个词就是血缘分析，血缘分析是保证数据融合的一个手段，通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路，直白点说，就是我们这个数据是怎么来的，经过了哪些过程和阶段。

数据血缘关系的应用场景是什么：

在数据的处理过程中，从数据源头到最终的数据生成，每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高，在后续的处理环节中如果没有进行数据质量的检测和处理，那么这个数据信息最终流转到我们的目标表，它的数据质量也是不高的。也有可能在某个环节的数据处理中，我们对数据进行了一些不恰当的处理，导致后续环节的数据质量变得糟糕。因此，对于数据的血缘关系，我们要确保每个环节都要注意数据质量的检测和处理，那么我们后续数据才会有优良的基因，即有很高的数据质量。

举例说明：

现在假设你是一只数据开发工程师，为了满足一次业务需求，，然后为了生成这张表，可能是处于程序逻辑清晰或者性能优化的考虑，你会使用很多份数据表，也会通过 MR、Spark 或者 Hive 来生产很多中间表。

如下图，是你将花费时间来实现的整个数据流。