Kettle8.0 连接配置 CDH5.12 Hive1.1

先说结论:CDH5.12 最好使用 Kettle8.0 (8.2,8.3 均不可行,8.1 未测试)

背景说明

公司 CDH 环境,Kettle 环境安装比较早,版本很旧。近期考虑升级 Kettle 版本,因此需要做下 Kettle 版本兼容性测试。
(升级 CDH代价太大,暂不考虑。)

软件版本

  • JDK : 1.8
  • Kettle: 8.0
  • CDH:5.12
  • Hive:1.1

下载Kettle

现在 Kettle 的各版本下载地址,已经非常难找,在此特别感谢大佬(微信号: sanjin_1024)整理的 Kettle 各版本下载链接。
微信链接地址:https://mp.weixin.qq.com/s/CQRRlFDzw32TG8yPvcL9BA
夸克网盘地址:https://pan.quark.cn/s/ec85034ec569#/list/share/f567cff772d64850ac4547b5890a396d-kettle各个版本
截止目前涵盖:kettle 5.4-9.4 版本
image

配置Kettle

解压文件:

unzip pdi-ce-8.0.0.0-28.zip

JDK下载官网:https://www.oracle.com/cn/java/technologies/javase-downloads.html
Windows 配置参考:https://cloud.tencent.com/developer/article/1774160
配置 JAVA_HOME :

vim /etc/profile
# set java environment
JAVA_HOME=/usr/local/java/jdk1.8.0_241
CLASSPATH=.:$JAVA_HOME/lib.tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH

# 重新加载配置文件
source /etc/profile

配置Hadoop

Hive连接驱动

对于 Kettle8.0 安装包自带 CDH5.12 连接驱动文件,如果缺失可从 服务器CDH 包环境下载
路径:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512/lib
image

Hadoop 配置

安装包中已经自带了配置文件
但是你需要将自己hadoop生态圈的配置文件更新过来。
可以从Cloudera管理控制台下载:
image
添加xml 文件到:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512
image

Hadoop生效

我们注意到 cdh512 同级目录下有很多其他 Hadoop 配置项,但是只能有一个生效,默认是都不生效。
image

配置文件路径:data-integration/plugins/pentaho-big-data-plugin/plugin.properties
修改配置内容:

active.hadoop.configuration=cdh512

image

创建连接

正常创建Hive 连接:
image

异常处理

找不到合适的驱动

image
可以有很多原因导致:

  1. Kettle 版本太高,可以参考 kettle 下载后自带的 cdh 版本。
    image

因为kettle连接hadoop集群,分为连接CDH还是apache hadoop,从目录\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations 就可以看出,每个版本的kettle只能连接该目录下指定的集群版本,因为 pentaho-hadoop-shims*.jar 这个文件的是用来匹配kettle和集群版本的,不能随意搭配。
因为官网上的shims版本是有限的。(https://sourceforge.net/projects/pentaho/files/Big Data Shims)
文件名:pentaho-hadoop-shims-cdh512-80.2017.10.00-28.jar
其中:

  1. cdh512 指适配的 CDH 版本5.12
  2. 80 指适配的 kettle 版本 8.0
  1. 未添加 Hive 连接配置文件到 lib 目录。
    此 lib 目录指:data-integration/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh512/lib
    非放 mysql、Oracle 等数据驱动的 data-integration/lib目录
posted @   葵花牌、阳光  阅读(121)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· CSnakes vs Python.NET:高效嵌入与灵活互通的跨语言方案对比
· 【.NET】调用本地 Deepseek 模型
· Plotly.NET 一个为 .NET 打造的强大开源交互式图表库
· 上周热点回顾(2.17-2.23)
· 如何使用 Uni-app 实现视频聊天(源码,支持安卓、iOS)
点击右上角即可分享
微信分享提示