为什么ELT更适合于企业数据应用?

为什么ELT更适合于企业数据应用

DataPipeline 陈肃

为什么现在企业环境中,一个ELT的方案会比ETL的方案更有优势,实际上是企业数据应用特点决定的。

 

 首先在一个企业数据应用里面我们对数据转换的灵活性要求越来越高,传统来说如果是BI应用可能相对来说是比较容易抽象的。但是现在大量企业在开发各种各样AI应用,AI应用有一个非常大的特点,它对于特征的抽取转化的过程是根据算法决定的,其实没有一个通用的方案能够使用一个ETL工具完成AI应用所需要的数据转换工作。

 

通常情况下,特征的抽取计算是你所使用AI应用框架的一部分。所以很多时候你不能依赖一个ETL工具来完成这个工作,而是应该把原始数据尽可能按照原貌进行一个轻度清洗,然后放到下游计算框架中去使用。

 

第二,我们注意到在企业里面同样的数据经常有不同的应用去使用。我以前在一家线上教育公司,我们把所有的数据会放在统一的数据仓库里面,包括用户的行为数据、学习数据等。基于这些数据我们会开发各种各样的应用,比如说向用户去推荐我们的课程、向用户提供自适应的学习功能。这些数据你不太容易在从数据源抽取出来的时候,就转换成为具体应用所需的特定结果,所以尽可能保持数据的原样。

 

第三,我们认为做一个数据集成方案的时候,需要考虑到一个很重要的问题是整个下游系统的可维护性和扩展性。如果你依赖于一个ETL工具在抽取数据过程中做大量的转化,我们知道一个transformation的过程可能是计算密集的,维护这个专有的集群需要付出额外的采购成本和维护成本的。而如果你使用一个ELT的方案,所有的转换都是跟着应用走的,你可以使用任何熟悉的计算框架,Spark也好、Kafka Streams也好,这个是根据自身的特点决定的,它不需要跟特定的ETL工具绑定,无论是成本还是灵活性上它都是具有一定优势的。

 

posted @ 2019-05-14 13:32  DataPipeline数见科技  阅读(416)  评论(0编辑  收藏  举报