Hadoop伪分布式安装

1.安装jdk     Linux下安装jdk-7u67-linux-x64.rpm

2.免密登录   ssl免密登录(centos6)

3.安装Hadoop

tar  zxvf  hadoop-2.6.5.tar.gz - C  /opt/sxt

4.修改Hadoop配置

  4.1.配置环境变量

    执行vi  +  /etc/profile

    添加:

    export HADOOP_HOME=/opt/sxt/hadoop-2.6.5
    PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    执行 source /etc/profile

  4.2.修改Hadoop配置文件

    cd /opt/sxt/hadoop-2.6.5/etc/hadoop

    设置Hadoop中的Java环境变量(Java的二次环境变量设置),因为启动集群会去找默认本地的jvm

    vi  hadoop-env.sh

    # The java implementation to use.
    修改export JAVA_HOME=/usr/java/jdk1.7.0_67

    同时修改一下计算框架的环境变量

    vi mapred-env.sh

    修改export JAVA_HOME=/usr/java/jdk1.7.0_67

    在修改一下资源管理的环境变量

    vi yarn-env.sh

    修改export JAVA_HOME=/usr/java/jdk1.7.0_67

  4.3.修改主节点NameNode配置信息

    进入etc/hadoop/core-site.xml添加:

    <configuration>
        <property>
            <name>fs.defaultFS</name>
          <value>hdfs://node1:9000</value>
        </property>
    </configuration>

  4.4.修改主节点DataNode配置信息,节点信息,伪分布式的副本数value=1

    进入etc/hadoop/dhfs-site.xml添加:

    <configuration>
      <property>
        <name>dfs.replication</name>
        <value>1</value>
      </property>
    </configuration>

  4.5.修改slaves文件,规定哪个节点作为从节点

    进入etc/hadoop/slaves修改为:

    删除localhost,改成node1,因为是伪分布式,所以现在的主从节点是同一台机器

  4.6.配置secondaryNameNode

    进入https://hadoop.apache.org/docs/r2.6.5/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

    找到secondNode的名字   dfs.namenode.secondary.http-address   端口号  0.0.0.0:50090
    进入etc/hadoop/dhfs-site.xml添加:

    修改为:

    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>node1:50090</value>
    </property>

  4.7.重新指向一下hadoop.tmp.dir的路径,把主从节点的数据都存到/var/sxt/hadoop/pseudo中

    进入etc/hadoop/core-site.xml添加:

    <property>
      <name>hadoop.tmp.dir</name>
      <value>/var/sxt/hadoop/pseudo</value>
    </property>

5.格式化

  格式化过程中生成fsimages镜像文件

  执行hdfs namenode -format,格式化结束后,会生成之前修改的etc/hadoop/core-site.xml文件中的/var/sxt/hadoop/pseudo路径,主从节点的所有信息都会加载存到这里,生成NameNode,集群id

6.启动集群

  会生成DataNode和secondaryNameNode

  执行start-dfs.sh

  依次启动运行NameNode,DataNode,secondaryNameNode

7.集群启动后查看运行状况

  执行jps 

  [root@node1 hadoop-2.6.5]# jps
  6329 DataNode
  6600 Jps
  6255 NameNode
  6444 SecondaryNameNode

8.Hadoop提供了可视化的web管理工具

  先查看web通讯端口:ss -nal

  端口号为50070,使用Chrome访问node1:50070

9.创建Hadoop内部的文件路径,上传DataNode文件

  进入/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized

  使用hdfs dfs命令(类似Linux的命令)

  创建路径:hdfs dfs -mkdir -p /user/root

  查看路径:hdfs dfs -ls /

  进入~/software查看要上传的文件大小:ls -lh ./

  上传文件:hdfs dfs -put hadoop-2.6.5.tar.gz /user/root

  上传完成可以去web浏览器查看/user/root路径下上传的文件

  文件存在磁盘为位置是:/var/sxt/hadoop/pseudo/dfs/data/current/BP-1237532946-192.168.88.31-1585528858872/current/finalized/subdir0/subdir0

10.关闭集群

  stop-dfs.sh 

posted @ 2020-04-04 22:51  一只小羊  阅读(295)  评论(0编辑  收藏  举报