kettle将数据加载到hadoop集群
1..将数据加载到HDFS
a)启动Hadoop,创建Job,把文件放进Hadoop
b)在桌面上打开PDI(kettle):选择“文件(file)”-“新建(new)”-“job”
c)添加启动项工作:你需要告诉PDI从哪开始的Job,所以点开设计面板的“常规”部    分,将一个“start”作业项放到右边面板

 

 

c)添加hadoop copy files Job输入:从本地磁盘复制到Hdfs,点开“Big Data”,将“hadoop              copy files”的Job放到右边工作区

 

 

d)连接“start和hadoop copy files”

 

 

e)编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信息:

 

 

1.Wildcard (RegExp):输入 ^.*\.txt
2.单击“ADD”将需要的files列表添加进去
 

 

 

f)保存工作:选择“File”->“save as。。。”从系统菜单,转型为  “load_hdfs.kjb”保存到选择的文件夹。
G)运行job:从菜单系统选择“Action”->“Run”或者绿色运行按 钮。一个“Execute a job”窗口,执行完之后,可以使用“Execution    Results”查看错误信息

 

 

H)问题:
Problem:Permission denied:user=xxxx, access=Excute,     inode=”/user/pdi/weblogs/raw”:raw:hadoop:drwxr-x---
权限被拒绝:无论在连接什么使用用户名时,要更改用户必须设    置环境变量HADOOP_USER_NAME.可以通过更改opt变量  spoon.bat或者spoon.sh:
OPT=”$OPT....-DHADOOP_USER_NAME=HadoopNameToSpoof”
2.简单的chrome拓展浏览HDFS volumes
3.将数据加载到Hive
a)         建立:启动Hadoop,启动Hive server
b)         创建一个Hive表:
1.打开Hive shelll写一个“hive”在command line
2.在hive中创建表:在hive shell中输入

 

 

3.输入“quit”关闭hive shell
c)      创建一个job来加载Hive
1.同上
2.同上
3.同上
4.同上
d)      编辑“hadoop copy files”,双击“hadoop copy files”,输入以下信 息:
1.Wildcard(RegExp)通配符:输入’part-.*’
2.点击“add”

 

 

3.保存job,选择“Flie”->“save as...”

 

 

 
4.将数据加载到Hbase
A)启动hadoop,启动hbase
1.打开Hbase shell
2.创建表在Hbase中
3.关闭hbase shell
B)创建一个Transformation来加载数据到Hbase
1.“File”->“New”-“Transformation”
 
2.打开“Input”->“Text file input”

 

 

3.点击“Add”
 

 

 

格式选择“Unix”