Hadoop伪分布式安装

1.安装jdk Linux下安装jdk-7u67-linux-x64.rpm

2.免密登录 ssl免密登录（centos6）

3.安装Hadoop

tar zxvf hadoop-2.6.5.tar.gz - C /opt/sxt

4.修改Hadoop配置

　　4.1.配置环境变量

　　　　执行vi + /etc/profile

　　　　添加：

　　　　export HADOOP_HOME=/opt/sxt/hadoop-2.6.5
　　　　PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

　　　　执行 source /etc/profile

　　4.2.修改Hadoop配置文件

　　　　cd /opt/sxt/hadoop-2.6.5/etc/hadoop

　　　　设置Hadoop中的Java环境变量（Java的二次环境变量设置），因为启动集群会去找默认本地的jvm

　　　　vi hadoop-env.sh

　　　　# The java implementation to use.
　　　　修改export JAVA_HOME=/usr/java/jdk1.7.0_67

　　　　同时修改一下计算框架的环境变量

　　　　vi mapred-env.sh

　　　　修改export JAVA_HOME=/usr/java/jdk1.7.0_67

　　　　在修改一下资源管理的环境变量

　　　　vi yarn-env.sh

　　　　修改export JAVA_HOME=/usr/java/jdk1.7.0_67

　　4.3.修改主节点NameNode配置信息

　　　　进入etc/hadoop/core-site.xml添加:

　　　　<configuration>
    　　　　<property>
      　　　　  <name>fs.defaultFS</name>
     　　   <value>hdfs://node1:9000</value>
  　　　　  </property>
　　　　</configuration>

　　4.4.修改主节点DataNode配置信息，节点信息，伪分布式的副本数value=1

　　　　进入etc/hadoop/dhfs-site.xml添加:

　　　　<configuration>
　　　　　　<property>
　　　　　　　　<name>dfs.replication</name>
　　　　　　　　<value>1</value>
　　　　　　</property>
　　　　</configuration>

　　4.5.修改slaves文件，规定哪个节点作为从节点

　　　　进入etc/hadoop/slaves修改为:

　　　　删除localhost，改成node1，因为是伪分布式，所以现在的主从节点是同一台机器

　　4.6.配置secondaryNameNode

　　　　进入https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

　　　　找到secondNode的名字 dfs.namenode.secondary.http-address 端口号 0.0.0.0:50090
　　　　进入etc/hadoop/dhfs-site.xml添加:

　　　　修改为：

　　　　<property>
　　　　　　<name>dfs.namenode.secondary.http-address</name>
　　　　　　<value>node1:50090</value>
　　　　</property>

　　4.7.重新指向一下hadoop.tmp.dir的路径，把主从节点的数据都存到/var/sxt/hadoop/pseudo中

　　　　进入etc/hadoop/core-site.xml添加:

　　　　<property>
　　　　　　<name>hadoop.tmp.dir</name>
　　　　　　<value>/var/sxt/hadoop/pseudo</value>
　　　　</property>

5.格式化

　　格式化过程中生成fsimages镜像文件

　　执行hdfs namenode -format，格式化结束后，会生成之前修改的etc/hadoop/core-site.xml文件中的/var/sxt/hadoop/pseudo路径，主从节点的所有信息都会加载存到这里，生成NameNode，集群id

6.启动集群

　　会生成DataNode和secondaryNameNode

　　执行start-dfs.sh

　　依次启动运行NameNode，DataNode，secondaryNameNode

7.集群启动后查看运行状况

　　执行jps　

　　[root@node1 hadoop-2.6.5]# jps
　　6329 DataNode
　　6600 Jps
　　6255 NameNode
　　6444 SecondaryNameNode

8.Hadoop提供了可视化的web管理工具

　　先查看web通讯端口：ss -nal

　　端口号为50070，使用Chrome访问node1:50070

9.创建Hadoop内部的文件路径，上传DataNode文件

　　进入/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized

　　使用hdfs dfs命令（类似Linux的命令）

　　创建路径：hdfs dfs -mkdir -p /user/root

　　查看路径：hdfs dfs -ls /

　　进入~/software查看要上传的文件大小：ls -lh ./

　　上传文件：hdfs dfs -put hadoop-2.6.5.tar.gz /user/root

　　上传完成可以去web浏览器查看/user/root路径下上传的文件

　　文件存在磁盘为位置是：/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized/subdir0/subdir0

10.关闭集群

　　stop-dfs.sh

posted @ 2020-04-04 22:51 一只小羊阅读(296) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

一只小羊

Hadoop伪分布式安装

公告