[JDBC] Kettle on MaxCompute 使用指南

简介： Kettle是一款开源的ETL工具，纯Java实现，可以在Windows、Unix和Linux上运行，提供图形化的操作界面，可以通过拖拽控件的方式，方便地定义数据传输的拓扑。基本讲介绍基于Kettle的MaxCompute插件实现数据上云。

Kettle版本：8.2.0.0-342

MaxCompute JDBC driver版本：3.2.8

Setup

下载并安装Kettle
下载MaxCompute JDBC driver
将MaxCompute JDBC driver置于Kettle安装目录下的lib子目录（data-integration/lib）
下载并编译MaxCompute Kettle plugin：https://github.com/aliyun/aliyun-maxcompute-data-collectors
将编译后的MaxCompute Kettle plugin置于Kettle安装目录下的lib子目录（data-integration/lib）
启动spoon

Job

我们可以通过Kettle + MaxCompute JDBC driver来实现对MaxCompute中任务的组织和执行。

首先需要执行以下操作：

新建Job
新建Database Connection
JDBC连接串格式为：jdbc:odps:?project=
JDBC driver class为：com.aliyun.odps.jdbc.OdpsDriver
Username为阿里云AccessKey Id
Password为阿里云AccessKey Secret
JDBC更多配置见：https://help.aliyun.com/document_detail/161246.html

之后，可以根据业务需要，通过SQL节点访问MaxCompute。下面我们以一个简单的ETL过程为例：

Create table节点的配置如下：

需要注意：

这里Connection需要选择我们配置好的
不要勾选Send SQL as single statement

Load from OSS节点配置如下：

需要注意的点同Create table节点。有关更多Load的用法，见：https://help.aliyun.com/document_detail/157418.html

Processing节点配置如下：

需要注意的点同Create table节点。

Transformation

我们可以通过MaxCompute Kettle plugin实现数据流出或流入MaxCompute。

首先新建Transformation，之后新建Aliyun MaxCompute Input节点，配置如下：

在MaxCompute中新建一张空表，schema与test_partition_table一致。

新建Aliyun MaxCompute Output节点，配置如下：

执行Transformation，数据便从test_partition_table被下载，后被上传至test_partition_table_2。

其他

置MaxCompute flags设

如图，在执行DDL/DML/SQL之前，可以通过set key=value;的方式配置flags。

Script模式

暂时无法支持

本文为阿里云原创内容，未经允许不得转载。

posted @ 2021-07-16 11:36 阿里云云栖号阅读(320) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识（上）
· 浏览器原生「磁吸」效果！Anchor Positioning 锚点定位神器解析

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· AI与.NET技术实操系列（二）：开始使用ML.NET
· 单线程的Redis速度为什么快？

公告

昵称：阿里云云栖号
园龄： 6年6个月
粉丝： 136
关注： 0

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:RocketMQ 之 IoT 消息解析：物联网需要什么样的消息技术?
good
--桃子先森
2. Re:理论与实践：如何写好一个方法
常读常新
--从零开始的程序员生活
3. Re:洞察设计模式的底层逻辑
常读常新
--从零开始的程序员生活
4. Re:Linux系统诊断-内存基础
vm.oom_kill_allocating_task (Linux 2.6.24+支持) 如果设置为0，OOM killer会扫描进程列表，选择一个进程来杀死。通常都会选择消耗内存内存最多的进程，杀...
--xiaohuazi
5. Re:资源预测数字模型搭建思路分享
你好，请问这个资源预测模板想生成别的月份的信息，应该怎么操作呢
--太爱帅帅怪我咯

AI FOR CODE 大赛