Apache SeaTunnel技术架构演进及其在AI领域的应用

随着数据集成需求的增长，Apache SeaTunnel作为新一代的数据同步引擎，不仅在技术架构上不断演进，也在AI领域展现出其独特的应用价值。在CommunityOverCode Asia 2024大会上，Apache SeaTunnel PMC Chair 高俊 深入探讨SeaTunnel的技术演进路径，分析其在AI领域的应用案例，并展望未来的发展规划。

https://www.bilibili.com/video/BV1NCs5eMEA8/?vd_source=e139ecc995ab936267a7991b9de55f6c

从0构建一个数据集成系统

构建数据集成系统的初衷，是因为我们面临着多种数据源到目标数据库的同步问题，如MySQL到MySQL、PostgreSQL到Oracle等。由于数据源众多，促使我们设计了灵活的源连接器和目标连接器。

Source连接器&Sink连接器

SeaTunnel的设计，是在数据源和目标端之间进行抽象，通过SPI的方式进行插件化加载，将数据从源端写到目标端。

表结构同步

如果目标端没有源端的表结构，则需要构建一个CatalogTable接口，来读取源端表结构的构造，得到一个类似于MySQL的表格，再转化为目标端对应的表结构。这样，在不同的数据流转之前，先把表结构进行流转，通过简单的代码就可以实现高效的数据队列和表结构同步机制。

并行化挑战

在设计SeaTunnel时，我们特别关注了并行化处理的多个方面，包括任务的创建、运行位置、启动与关闭、数据分片以及任务与作业间的状态流管理。SeaTunnel把单线程变为多线程处理任务，枚举器通过不同算法把成千上完的数据拆分成实例，送到Source Reader中，每个Reader负责执行一个SQL查询，从而进行数据的并行读取。

SeaTunnel引擎

这么多的任务示例，它们何时开始、何时结束、运行时长，运行的顺序是什么？这就需要一个引擎来规划实例的执行计划。这就是SeaTunnel引擎发挥作用的地方，它的核心是提供一个统一的数据同步与集成解决方案，支持多种数据源和目标，并能够处理大规模数据流。

Apache SeaTunnel诞生

可以看到，之所以出现越来越多的复杂的数据集成引擎，是出于各种需求而不断演进。在这样的背景下，Apache SeaTunnel应运而生。

设计目标

SeaTunnel的设计目标：

简单易用：通过简单的配置和命令即可创建同步任务和运行同步任务；
同步过程可监控、指标可量化：同步过程中自动统计任务读取写入的数据量，性能指标，数据延时等信息
丰富的数据源生态：支持国内外数据库、消息队列、云存储、云组件、数据湖、仓、SaaS服务、支持用户自定义数据源
全场景支持：支持所有数据集成场景，包括离线、实时、全量、增量、CDC、CDC整库同步、DDL变更、动态加表
数据一致性保障：数据不丢失、不重复、精确处理一次、支持断点续传
资源使用少：包括内存优化、CPU线程优化、多表同步数据库连接共享

架构概览

SeaTunnel的架构由目标数据库、源数据库，以及数据同步与集成组件构成。中间部分的抽象API包括Table API、Source API、Sink API、Engine API、Catalog API、Type Converter API等一系列API组成，基于这一系列API实现的连接器可以运行在多种引擎上，包括原生支持的SeaTunnel Zeta引擎，这是目前我们经过测试数最快的数据同步引擎。同时，SeaTunnel支持通过翻译层将API开发的连接器翻译成Spark和FlinkConnector，从而支持运行在Spark和Flink引擎上。