Hadoop伪分布式安装
1.安装jdk Linux下安装jdk-7u67-linux-x64.rpm
2.免密登录 ssl免密登录(centos6)
3.安装Hadoop
tar zxvf hadoop-2.6.5.tar.gz - C /opt/sxt
4.修改Hadoop配置
4.1.配置环境变量
执行vi + /etc/profile
添加:
export HADOOP_HOME=/opt/sxt/hadoop-2.6.5
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行 source /etc/profile
4.2.修改Hadoop配置文件
cd /opt/sxt/hadoop-2.6.5/etc/hadoop
设置Hadoop中的Java环境变量(Java的二次环境变量设置),因为启动集群会去找默认本地的jvm
vi hadoop-env.sh
# The java implementation to use.
修改export JAVA_HOME=/usr/java/jdk1.7.0_67
同时修改一下计算框架的环境变量
vi mapred-env.sh
修改export JAVA_HOME=/usr/java/jdk1.7.0_67
在修改一下资源管理的环境变量
vi yarn-env.sh
修改export JAVA_HOME=/usr/java/jdk1.7.0_67
4.3.修改主节点NameNode配置信息
进入etc/hadoop/core-site.xml添加:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:9000</value> </property> </configuration>
4.4.修改主节点DataNode配置信息,节点信息,伪分布式的副本数value=1
进入etc/hadoop/dhfs-site.xml添加:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4.5.修改slaves文件,规定哪个节点作为从节点
进入etc/hadoop/slaves修改为:
删除localhost,改成node1,因为是伪分布式,所以现在的主从节点是同一台机器
4.6.配置secondaryNameNode
进入https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
找到secondNode的名字 dfs.namenode.secondary.http-address 端口号 0.0.0.0:50090
进入etc/hadoop/dhfs-site.xml添加:
修改为:
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node1:50090</value>
</property>
4.7.重新指向一下hadoop.tmp.dir的路径,把主从节点的数据都存到/var/sxt/hadoop/pseudo中
进入etc/hadoop/core-site.xml添加:
<property>
<name>hadoop.tmp.dir</name>
<value>/var/sxt/hadoop/pseudo</value>
</property>
5.格式化
格式化过程中生成fsimages镜像文件
执行hdfs namenode -format,格式化结束后,会生成之前修改的etc/hadoop/core-site.xml文件中的/var/sxt/hadoop/pseudo路径,主从节点的所有信息都会加载存到这里,生成NameNode,集群id
6.启动集群
会生成DataNode和secondaryNameNode
执行start-dfs.sh
依次启动运行NameNode,DataNode,secondaryNameNode
7.集群启动后查看运行状况
执行jps
[root@node1 hadoop-2.6.5]# jps
6329 DataNode
6600 Jps
6255 NameNode
6444 SecondaryNameNode
8.Hadoop提供了可视化的web管理工具
先查看web通讯端口:ss -nal
端口号为50070,使用Chrome访问node1:50070
9.创建Hadoop内部的文件路径,上传DataNode文件
进入/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized
使用hdfs dfs命令(类似Linux的命令)
创建路径:hdfs dfs -mkdir -p /user/root
查看路径:hdfs dfs -ls /
进入~/software查看要上传的文件大小:ls -lh ./
上传文件:hdfs dfs -put hadoop-2.6.5.tar.gz /user/root
上传完成可以去web浏览器查看/user/root路径下上传的文件
文件存在磁盘为位置是:/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized/subdir0/subdir0
10.关闭集群
stop-dfs.sh