kettle将数据加载到hadoop集群
1..将数据加载到HDFS
a)启动Hadoop,创建Job,把文件放进Hadoop
b)在桌面上打开PDI(kettle):选择“文件(file)”-“新建(new)”-“job”
c)添加启动项工作:你需要告诉PDI从哪开始的Job,所以点开设计面板的“常规”部 分,将一个“start”作业项放到右边面板

c)添加hadoop copy files Job输入:从本地磁盘复制到Hdfs,点开“Big Data”,将“hadoop copy files”的Job放到右边工作区

d)连接“start和hadoop copy files”

e)编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信息:

1.Wildcard (RegExp):输入 ^.*\.txt
2.单击“ADD”将需要的files列表添加进去

f)保存工作:选择“File”->“save as。。。”从系统菜单,转型为 “load_hdfs.kjb”保存到选择的文件夹。
G)运行job:从菜单系统选择“Action”->“Run”或者绿色运行按 钮。一个“Execute a job”窗口,执行完之后,可以使用“Execution Results”查看错误信息

H)问题:
Problem:Permission denied:user=xxxx, access=Excute, inode=”/user/pdi/weblogs/raw”:raw:hadoop:drwxr-x---
权限被拒绝:无论在连接什么使用用户名时,要更改用户必须设 置环境变量HADOOP_USER_NAME.可以通过更改opt变量 spoon.bat或者spoon.sh:
OPT=”$OPT....-DHADOOP_USER_NAME=HadoopNameToSpoof”
2.简单的chrome拓展浏览HDFS volumes
3.将数据加载到Hive
a) 建立:启动Hadoop,启动Hive server
b) 创建一个Hive表:
1.打开Hive shelll写一个“hive”在command line
2.在hive中创建表:在hive shell中输入

3.输入“quit”关闭hive shell
c) 创建一个job来加载Hive
1.同上
2.同上
3.同上
4.同上
d) 编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信 息:
1.Wildcard(RegExp)通配符:输入’part-.*’
2.点击“add”

3.保存job,选择“Flie”->“save as...”

4.将数据加载到Hbase
A)启动hadoop,启动hbase
1.打开Hbase shell
2.创建表在Hbase中
3.关闭hbase shell
B)创建一个Transformation来加载数据到Hbase
1.“File”->“New”-“Transformation”
2.打开“Input”->“Text file input”

3.点击“Add”

格式选择“Unix”
分类:
kettle
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?