Apache Hudi表自动同步至阿里云数据湖分析DLA

1. 引入

Hudi 0.6.0版本之前只支持将Hudi表同步到Hive或者兼容Hive的MetaStore中,对于云上其他使用与Hive不同SQL语法MetaStore则无法支持,为解决这个问题,近期社区对原先的同步模块hudi-hive-sync进行了抽象改造,以支持将Hudi表同步到其他类型MetaStore中,如阿里云的数据湖分析DLA(https://www.aliyun.com/product/datalakeanalytics中。

2. 抽象

将Hudi表同步至Hive MetaStore的代码在hudi-hive-sync模块,为兼容更多类型MetaStore,现将其改造为如下模块

hudi-sync
|-hudi-sync-common
|-hudi-hive-sync
|-hudi-dla-sync

其中各模块说明如下

  • hudi-sync-common表示元数据同步公共模块,用于存放一些用于同步的公共父类;
  • hudi-hive-sync表示同步Hive模块;
  • hudi-dla-sync表示同步阿里云DLA模块;

基于上述结构,用户可基于hudi-sync-common构建自定义的元数据同步逻辑。

3. 配置

下面以DLA为例,介绍如何通过Spark写入Hudi表后自动将Hudi表同步至DLA中,同步核心配置如下

df.write().format("hudi").
  options(getQuickstartWriteConfigs()).
  option(PRECOMBINE_FIELD_OPT_KEY(), "ts").
  option(RECORDKEY_FIELD_OPT_KEY(), "name").
  option(PARTITIONPATH_FIELD_OPT_KEY(), "location").
  option("hoodie.embed.timeline.server", false).
  option(TABLE_NAME, tableName).
  option(TABLE_TYPE_OPT_KEY(), tableType).
  option(META_SYNC_CLIENT_TOOL_CLASS(), "org.apache.hudi.dla.DLASyncTool").
  option(META_SYNC_ENABLED_OPT_KEY(), "true").
  option("hoodie.datasource.dla_sync.database", dbName).
  option("hoodie.datasource.dla_sync.table", tableName).
  option("hoodie.datasource.dla_sync.username", dlaUsername).
  option("hoodie.datasource.dla_sync.password", dlaPassword).
  option("hoodie.datasource.dla_sync.jdbcurl", dlaJdbcUrl).
  option("hoodie.datasource.dla_sync.partition_fields", "location").
  option("hoodie.datasource.dla_sync.partition_extractor_class", "org.apache.hudi.hive.MultiPartKeysValueExtractor").
  mode(saveMode).
  save(basePath);

关键配置项说明如下:

  • META_SYNC_CLIENT_TOOL_CLASS()表示进行同步的类,指定为org.apache.hudi.dla.DLASyncTool表示通过DLASyncTool进行同步,与HiveSyncTool同步至Hive功能类似;
  • hoodie.datasource.dla_sync.database表示同步至DLA中的数据库名;
  • hoodie.datasource.dla_sync.table表示同步至DLA中的表名;
  • hoodie.datasource.dla_sync.username表示连接DLA的用户名;
  • hoodie.datasource.dla_sync.password表示连接DLA的密码;
  • hoodie.datasource.dla_sync.jdbcurl表示连接DLA的JDBC连接;
  • hoodie.datasource.dla_sync.partition_fields表示同步至DLA的分区字段;
  • hoodie.datasource.dla_sync.partition_extractor_class表示同步至DLA的分区值解析器;

除了上述配置外,还需要在pom.xml依赖中新增hudi-dla-sync依赖(hudi.version为0.6.0-SNAPSHOT)

<dependency>
	<groupId>org.apache.hudi</groupId>
	<artifactId>hudi-dla-sync</artifactId>
	<version>${hudi.version}</version>
</dependency>

4. 同步

上述配置中,数据库名配置为hudi_dla_demo_db,表名配置为hudi_trips_dal_demo;其他用户名、密码、JDBC连接配置可参考如下链接:https://help.aliyun.com/document_detail/110829.html。配置完后即可在Spark写入Hudi时自动将Hudi表同步至DLA,同步结果如下

查询表结果如下:

为方便用户直观感受到将Hudi表同步到DLA,可参考这里https://help.aliyun.com/document_detail/173653.html直接运行对应Jar包来快速构建基于Hudi和DLA的数据湖。

5. 总结

可以看到基于最新的Hudi版本,用户可自定义Hudi表同步MetaStore逻辑,同时只需要非常简单的配置即可完成自动同步,并且以同步至DLA为例,给出了关键配置,该功能将在近期发布的0.6.0版本中释出。

posted @   leesf  阅读(934)  评论(0编辑  收藏  举报
编辑推荐:
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
阅读排行:
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示