数据集成赛道重回数据领域兵家“必争之地”!

作者 | 郭炜

导读:此前,《技术成熟度曲线2024》第一、二部分内容已发布,详见《「从ETL 到ELT,到 EtLT的趋势」》、《数据集成成熟度模型解读》。本文为报告的最后一篇,主要对数据集成技术进行趋势预测与总结,并讲解如何使用数据集成成熟度模型。

趋势

数据集成在未来几年随着EtLT架构的普及,很多新型的场景会出现,同时数据虚拟化、DataFabric对于未来数据集成也会有重大影响:

  • 多云集成:这在全球已经很普及,大部分的数据集成都具有跨云的集成能力,在中国因为云尚未普及,所以这方面还在早期孵化阶段。
  • ETL一体化:随着ETL周期性的衰退,大部分的企业会从Kettle,Informatica,Talend等工具逐步迁移到新兴的EtLT架构,从而支持批流一体的数据集成,也支持更多的新兴数据源。
  • ELT:目前主流的大数据架构基本都ELT架构,随着实时数据仓库、数据湖的兴起,ELT相关工具会逐步升级到EtLT工具,或者在原有ELT架构上增加实时EtLT工具以弥补ELT架构对实时数据支持的缺失。
  • EtLT:全球范围里,包括像JpMogan、Shein、Shoppe等企业嵌入到EtLT架构当中,会有更多的企业会讲内部数据集成工具进入到EtLT架构,配合批流一体的调度系统满足企业DataOps相关需求。
  • 自动化治理:随着数据源和实时数据的增加,传统的治理流程已经无法满足实时分析对于时效性的分析,自动化治理在未来几年内会在企业内部逐步兴起。
  • 大模型支持:在大模型深入企业应用中后,如何给大模型供数成为数据集成必备的技能,传统的ETL和ELT架构都比较难适配大模型这种实时性高,批量数据比较大的场景,因此EtLT架构会和大模型普及一起深入多数企业当中。
  • ZeroETL:这是亚马逊提出的概念,认为数据存储在S3上,可以通过各种引擎直接来访问,而不需要进行不同引擎之间的ETL。某种意义来讲,如果数据场景不复杂,数据量不大,少量引擎就可以满足OLAP和OLTP需求这种存算分离是企业最佳方案。但是由于场景支持过少,性能不佳等问题,导致未来一段时间还需要一段时间沉淀才可以得到更多企业的认可。
  • DataFabric:现在多家企业提出利用DataFabric的元数据来管理所有数据,查询不用再进行ETL/ELT,而是直接访问底层数据。目前这种技术还处于实验阶段,查询的响应和场景适配难度都比较大。针对简单场景的少量数据查询是可以满足需求的,未来很长的一段时间,针对大数据复杂场景,还是需要EtLT架构来进行。
  • 数据虚拟化:基本思路类似于DataFabric的执行层,数据不需要挪动,通过即席查询接口和计算引擎(例如 Presto,TrinoDB)来直接翻译底层数据存储或者数据引擎的数据进行查询。但是,问题也是在大量数据情况下,引擎查询效率、内存消耗往往达不到需求预期,因此只在少量数据情况下使用。

小结

从整体趋势来看,随着全球数据爆炸性增长,大模型的出现,处理各种场景的数据引擎也如雨后春笋般层出不穷,而实时数据的兴起也让数据集成这个赛道重新回到数据领域兵家必争之地的局面。如果说数据是一种新能源,那么数据集成就像是新能源的管道,数据引擎越多,要求管道的效率、数据源兼容性、易用性就会越来高。

虽然数据集成在最终会面临Zero ETL、数据虚拟化、DataFabric的挑战,但是在可见的未来,这些技术的性能、准确率和ROI一直无法达到数据集成的普及程度,否则美国最流行的数据引擎不应该是SnowFlake或者DeltaLake,而应该是TrinoDB。当然,我相信,未来10年在DataFabric x 大模型情况下,虚拟化+EtLT+数据路由的方式可能才是最终数据集成的解决方案。

总之,只要数据永远在扩张,数据之间的管道就会永远存在。

如何使用数据集成成熟度模型

首先针对可以根据成熟度模型可以看到全面的当前及未来10年内数据集成可能使用到的技术点,对于个人技术发展,企业技术架构设计、选型给了一个全面的地图,同时也对数据集成行业发展重点给出启示。

对于企业来讲,技术成熟度可以判断一个技术投入程度,对于成熟期的技术现有企业一定已经使用了类似的技术很多年了,支持业务已经非常成熟;因为技术发展已经进入瓶颈,如果有更优秀的热门期的技术可以考虑更新以换取更高的业务价值;在衰退期的技术,大部分企业在使用当中开始发现它在支持业务方面的瓶颈和问题,基本在未来3-5年内就会逐步被热门期或者成长期技术所取代,这部分技术企业如果要新引入这类技术可以考虑其业务价值和企业现状;对于热门期的技术,企业选择会优先考虑,因为这部分技术已经在早期大众(Early Majoniy ,超过70%的人群)中得到了充分验证,大部分企业和技术公司都在热捧这类技术,同时它的业务价值得到验证,未来1-2年很快占据市场主导地位;成长期的技术,企业选择时要根据它对自己的业务价值考虑,这部分技术已经度过前瞻期,技术价值和业务价值已经在早期使用者(Early Adopter)当中得到验证,不过因为市场品牌宣传等原因还未全面普及,对于业务价值比较高的技术企业可以考虑采用,成长期的技术有很大概率会成为热门期技术以及未来的企业标准;前瞻期的技术一般都是比较前沿的技术,属于早期尝鲜者正在使用的技术,都具有一定的业务价值,但是技术通用性和ROI还未得到验证,一般对企业业务价值比较大的部分可以考虑小范围使用。

对于个人来讲,成熟期和衰退期的技术已经没有学习和钻研价值,大部分是已经普及的技术,会使用即可;钻研热门期的技术有利于找工作,因为这部分是业界热捧的技术,企业需求旺盛、学习材料也非常多,不过这方面的学习的竞争者也比较多,需要有一定深度才可以脱颖而出;成长期的技术值得个人选择其中一些方向深入学习,因为这部分技术在未来有很大概率成为热门技术,而个人前期在成长期阶段积累的经验可以在这些业务成为热门阶段的时候,你成为“专家”而脱颖而出,快人一步;而前瞻期的技术,对于技术极客来讲,可以投入精力来研究,这部分的技术往往可能酝酿着“颠覆式”创新,成为未来热点,但是也可能被验证失败,普通技术人员根据自己的爱好来选择,这部分技术对于找工作和日常实战来讲距离还比较远,对于一些前瞻性的公司来讲,这些技术面试的时候会被提问来考察个人技术的前瞻性。

⭐️技术成熟度定义:

  • 前瞻期:技术仍处于研究开发阶段,技术社群主要探索技术的实际应用可行性和潜在的市场价值,尽管业界对此技术的认识尚浅,但已经识别到高价值的需求。
  • 成长期:随着技术开始进入实际应用阶段,市场上出现越来越多的竞争者,伴随着各种技术路径的并行发展。此时,技术社群重点关注如何克服实际应用中的挑战,并最大化其商业价值,尽管业界对这些技术的兴趣日益浓厚,其在商业上的价值仍未完全显现。
  • 热门期:技术发展达到高潮,技术社群力求推动技术性能达到极致,业界对该技术的关注也达到顶峰,并且技术开始显著体现出商业价值。
  • 衰退期:技术路径开始呈现优劣分明,市场对于技术的优化和整合提出更高要求,此外,业界开始认识到技术在提升业务价值方面的局限性和边界。
  • 成熟期:技术路径趋于统一并标准化,技术社群关注点转向如何降低成本并提高效率,业界同样关注成本效益,基于成本效益分析来评估技术的优先级和应用广度。

💰业务价值定义:

  • 5星:相关技术点/业务单元的降本/收益贡献占部门总收入的50%及以上,或由高级总监及以上级别(如VP等)的管理人员负责。
  • 4星:相关技术点/业务单元的降本/收益贡献占部门总收入的40%至50%之间,或由总监级别的管理人员负责。
  • 3星:相关技术点/业务单元的降本/收益贡献占部门总收入的30%至40%,或由高级经理级别的管理人员负责。
  • 2星:相关技术点/业务单元的降本/收益贡献占部门总收入的20%至30%,或由经理级别的管理人员负责。
  • 1星:相关技术点/业务单元的降本/收益贡献占部门总收入的5%至20%之间,或由主管级别的管理人员负责。

⭐️技术难度定义:

  • 5星:投入顶级行业专家团队12个月以上。
  • 4星:投入行业专家或高级架构师团队12个月以上。
  • 3星:投入架构师团队6个月左右。
  • 2星:投入高级程序员团队1-3个月。
  • 1星:投入普通程序员团队1-3个月。
posted @ 2024-06-05 11:05  ApacheSeaTunnel  阅读(3)  评论(0编辑  收藏  举报