博客园  :: 首页  :: 联系 :: 管理

2024数据工程开源技术跟踪

Posted on 2024-05-04 08:29  天戈朱  阅读(74)  评论(0编辑  收藏  举报

1、已退休、存档和被放弃的项目,例如:

  • Apache Sqoop:This repository has been archived by the owner on Jul 9, 2021. It is now read-only
  • Scribe: This repository has been archived by the owner on Jan 13, 2022. It is now read-only.
  • Apache Apex:This repository has been archived by the owner on Jun 7, 2021. It is now read-only.

2、过去一年在Github上完全不活跃的项目,以及在社区中几乎未被提及的项目

  • Apache Pig:last release-0.17.0 on Jun 14, 2017、Star(666)
  • Apache Oozie:last release-5.2.1 on Feb 25, 2021, star(697)

3、Apache Ozone(分布式存储):Apache Ozone是一个高度可扩展、冗余的分布式对象存储,适用于分析、大数据和云原生应用,以在Kubernetes等容器化环境中有效地工作。

  • github:https://github.com/apache/ozone
  • HDFS仍然是本地Hadoop集群的主流技术,但Apache Ozone分布式对象存储正在迎头赶上,为本地数据湖存储技术提供了另一种选择。主流商业Hadoop提供商Cloudera现在把Ozone作为其CDP私有云产品的一部分。
  • 在Hadoop生态系统中,Apache ORC仍然是列存储的首选,而Apache Parquet已经成为现代数据湖中数据序列化的事实标准。是因为它体积不大、高效压缩以及与各种处理引擎的广泛兼容性。

4、table format(数据湖):2023年最热门的发展之一是开放表格格式的兴起。这些框架实质上充当了一个表格抽象和虚拟数据管理层,位于你的数据湖存储和数据层之上。当前,开放表格格式领域三足鼎立:

  • Apache Hudi:最初由Uber开发和开源,其主要设计目标是支持近实时数据更新和ACID事务。
  • Apache Iceberg:由Netflix的工程团队发起
  • Delta Lake:由Databricks创建和开源,与Databricks平台无缝集成。
  • OneTable:已由OneHouse开源,该工具超越了单个表格格式,提供了在一个单一框架下使用所有前三个主要竞争者的能力。这让用户能够采用通用格式,同时以其首选格式向处理引擎暴露数据,从而提高了灵活性和敏捷性。

5、数据集成:2023年的数据集成领域不仅继续由Apache Nifi、Airbyte和Meltano等老牌玩家主导,还出现了一些有前景的工具,例如Apache Inlong和Apache SeaTunnel,它们以其独特的优势提供的的替代方案引人注目。

  • Apache Inlong:是一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。 InLong 项目原名 TubeMQ ,专注于高性能、低成本的消息队列服务。为了进一步释放 TubeMQ 周边的生态能力,我们将项目升级为 InLong,专注打造一站式海量数据集成框架。 Apache InLong 依托 10 万亿级别的数据接入和处理能力,整合了数据采集、汇聚、存储、分拣数据处理全流程,拥有简单易用、灵活扩展、稳定可靠等特性。 该项目最初于 2019 年 11 月由腾讯大数据团队捐献到 Apache 孵化器,2022 年 6 月正式毕业成为 Apache 顶级项目。目前 InLong 正广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域,为多领域客户提供高效化便捷化服务。
  • Apache SeaTunnel: 新一代高性能、分布式、海量数据集成工具,支持上百种数据源 ( Database/Cloud/SaaS ) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据。

6Redpanda:在事件和消息中间件领域,虽然有挑战者如Redpanda追赶,但Apache Kafka的地位无人撼动。Redpanda在2023年获得了1亿美元的C轮融资,表明资本对提供低延迟和高吞吐量的替代消息代理的兴趣正在增长。

7、工作流管理:工作流调度的生态可以说是整个生态系统中最丰富的类别,其中既有老牌巨头也有令人兴奋的新秀。诸如Apache Airflow和Dagster之类的老牌工具仍然很受欢迎,另一方面,在过去的两年中,GitHub见证了几个令人信服的新兴工具的崛起,它们获得了相当大的关注。

  • Kestra: 一个协调器:在几分钟内构建一个复杂的管道。 调度程序:根据需要启动流程! 丰富的用户界面:使用实时用户界面创建、运行和监控所有流程。 一个数据编排器:通过它的许多插件,直接构建您的数据编排。 
  • Temporal:用于构建和管理自定义工作流。它们提供了一种可靠、可扩展的方式来编排和协调分布式任务和业务流程。
  • 还有 Mage 和 Windmill 都值得关注,它们各自有着独特的优势。

8、数据基础设施与监控:最近Grafana Labs的调查证实,Grafana、Prometheus和 ELK 仍然在可观察性和监控领域占据主导地位。Grafana Labs本身一直非常活跃,推出了新的开源工具,如:

  • Loki :(用于日志聚合)Grafana 提供 Loki 中捕获的日志行的可视化与搜索平台,Loki 是日志记录存储与检索引擎。
  • Mimir:(用于长期的Prometheus存储),进一步加强了平台能力。Grafana Mimir 是 Grafana Labs 开发的一个 AGPLv3 许可的开源软件项目,与对象存储结合使用时,可为 Prometheus 指标提供可扩展的长期存储。Mimir 使用基于微服务的可水平扩展的架构构建。每个微服务被称为一个组件,Mimir 作为由这些组件组成的单个二进制文件运行。大多数组件都是无状态的,不需要在重新启动之间保留任何数据。
  • 在集群管理和监控方面,开源工具似乎就不那么热门了。这可能是因为云迁移的趋势减少了对管理大型本地数据平台的需求。虽然 Apache Ambari 项目曾经因Hadoop集群管理火爆一时,但在2019年Hortonworks和Cloudera合并后几乎被放弃,最近重新燃起的复苏的小火苗又给它的未来带来一丝希望。但是,它的命运是否长久仍然不确定。
  • 至于资源调度和工作负载部署,Kubernetes 似乎是首选的资源调度,特别是在基于云的平台上。

9、元数据管理:近年来,元数据管理已经成为关注焦点,这是由于对数据进行管理和访问的需求不断增长。然而,缺乏全面的元数据管理平台促使像 Netflix、Lyft、Airbnb、Twitter、LinkedIn 和 Paypal 等科技巨头构建自己的解决方案。

  • 这些努力为开源社区带来了一些显著的变化。像 Amundsen(来自Lyft)、DataHub(来自LinkedIn)和 Marquez(来自WeWork)这样的工具是自主开发的解决方案,都已经开源并正在积极开发和贡献。
  • 至于架构管理,这个领域仍然有些停滞不前。Hive Metastore 仍然是许多人的首选解决方案,因为目前没有替代的开源解决方案来取代它。

10、分析与可视化:在商业智能(BI)和可视化领域,Apache Superset  是最活跃和受欢迎的开源替代方案,与许可的SaaS BI解决方案相比,它的表现更为出色。

  • 对于分布式和大规模并行处理(MPP)引擎,一些专家认为大数据已经过时,大多数公司不需要大规模的分布式处理,而是选择单个强大的服务器来处理其数据量。
  • 尽管有这种说法,但分布式大规模并行处理(MPP)引擎,如 Apache Hive、Impala、Presto 和 Trino,在大型数据平台中仍然非常普遍,特别是对于拥有PB级数据的情况。

参考资料