Kettle 中文名称叫水壶

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle 家族目前包括 4 个产品:Spoon、Pan、CHEF、Kitchen。 

SPOON 允许你通过图形界面来设计 ETL 转换过程(Transformation)。 

PAN 允许你批量运行由 Spoon 设计的 ETL 转换 (例如使用一个时间调度器)。Pan 是一个后台执行的程序,没有图形界面。 

CHEF 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。 

KITCHEN 允许你批量使用由 Chef 设计的任务 (例如使用一个时间调度器)。KITCHEN 也是一个后台运行的程序。

Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制

目录

  • Kettle 组件类型基本说明 tans/job
  • Kettle 大数据组件的应用说明
  • 基于表对表的同步
  • 基于表到 hdfs 的同步
  • 基于文件到 hdfs 的同步
  • 基于表到 hive 的同步
  • 基于表到 hbase 的同步
  • 基于文件到 hbase 的同步
  • 基于表到 phoenix 的同步
  • Kettle 中 sqoop 的调用
  • Kettle 中 JavaScript 的基本应用
  • 作业调用作业及转换
  1. 如需运用大数据组件 需要将如下:
  • core-site.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-site.xml
  • mapred-site.xml
  • yarn-site.xml

配置文件放入 $KETTLE_HOME/plugins/pentaho-big-data-plugin/hadoop configurations/hdp24

并在 $KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties 文件中添加 active.hadoop.configuration=hdp24

posted @ 2024-07-10 15:00  南国之恋  阅读(23)  评论(0编辑  收藏  举报