Centos 6.4 这是6系列的一个稳定版
JDK 7版本,hadoop许多组件是基于7开发的~ 6就跑不起来了~
Vmware。网卡设置VMNET8(NAT)
启动后,配置网络setup,然后重启网络service network restart
关闭图形界面init 3
设置securecrt文字风格
让系统默认不启动图形界面,修改/etc/inittab将启动级别改为3
修改主机名/etc/sysconfig/network
技巧:securecrt下alt+p打开sftp,命令put上传文件
1、安装jdk
2、安装hadoop
目录结构:
lib:本地库
share:hadoop的jar包
share\doc 帮助文档,可以删除
注意
share\hadoop\hdfs\hadoop-hdfs-2.4.1.jar hdfs核心包
share\hadoop\hdfs\lib\ hdfs依赖
例如hdfs开发导包时,注意导入这两个部分即可。
修改配置文件etc/:
hadoop-env.sh,hadoop的环境变量配置
JAVA_HOME
core-site.xml 核心配置
fs.defaultFS 默认的文件系统的uri(因为hadoop各组件是松耦合的),比如hdfs://hadoop1:9000
hadoop.tmp.dir hadoop的工作目录,例如/usr/local/hadoop/data/
hdfs-site.xml 配置几个即可,其他都有默认值。blocksize默认128M,老版本64M
dfs.replication 副本数
mapred-site.xml
mapreduce.framework.name 设置mapred程序提交到哪个资源调度程序跑(jar包分发,分配运行的虚拟机...),例如yarn。如果不指定,则会在本地跑,不会进入集群
yarn-site.xml
yarn.resourcemanager.hostname 设置yarn的老大resourcemanager,例如hadoop1
yarn.nodemanager.aux-services 指定mapred程序里map产生的中间结果怎么传递给reduce,采用哪种机制。目前只有mapreduce_shuffle
slaves
指定哪些机器上要启动dataname
3、关闭防火墙
service iptables stop 关闭
chkconfig iptables --list
chkconfig iptables off 禁止重启后自启
4、初始化hadoop
配置HADOOP_HOME,然后在PATH中加$HADOOP_HOME/bin
hadoop namenode -format 格式化hdfs
5、免密码登陆
测试hdfs
http://hadoop1:50070
hadoop fs -put a.tar.gz hdfs://hadoop1:9000/
hadoop fs -get hdfs://hadoop1:9000/a.tar.gz
测试mapreduce
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar pi 5 5
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar wordcount /wc/in /wc/out