Hadoop伪分布式安装

一、安装jdk

     安装:sudo apt-get install openjdk-7-jdk

    配置环境变量:

    修改文件 sudo nano /etc/profile , 添加以下内容: 

    

    立即执行使之生效:

    

二、Hadoop伪分布式

   1、下载Hadoop

      http://hadoop.apache.org/releases.html

   2、解压,目录下几个重要目录

     sbin:启动或者停止Hadoop相关服务的脚本

     bin:对Hadoop相关服务(HDFS,YARN)进行操作的脚本

     etc:Hadoop的配置文件目录

     share:Hadoop依赖的jar包和文档,文档可以删掉,jar包不能

     lib:Hadoop的本地库(对数据进行压缩解压缩功能的)  

  3、配置Hadoop伪分布式,修改其中5个配置文件

    第一个配置文件Hadoop-env.sh: 

     

     修改如下: 

     

     第二个配置文件core-site.xml:

     

    配置HDFS的地址、协议、端口号和Hadoop运行时产生数据的存储目录,不临时数据

    

    第三个配置文件hdfs-site.xml:

    

    指定HDFS数据副本数存储量,由于是伪分布式,只有一台机器,所以value为1

     

    第四个配置文件:

    重命名:

         

    

    指定mapreduce编程模型运行在yarn之上

    

     第五个配置文件yarn-site.xml:

    

    参数解释https://blog.csdn.net/xiaoshunzi111/article/details/51221139

    默认参数http://hadoop.apache.org/docs/r2.4.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

    mapreduce执行shuffle时获取数据的方式 

     

  4、配置Hadoop环境变量

    

    添加

    

    执行

    

   5、配置ssh免密码

   这是单机模式下的,相当于自己访问自己

   方法一:

(在输入下面这几个命令之前试过其他方法,遇到很多问题,执行过其他一些操作,最后是找到如下方法操作成功的,但是不知道之前的操作有没有影响)

  参考https://blog.csdn.net/budapest/article/details/8022926

   生成ssh公钥和私钥

    

    

    

  方法二:

   (这个方法我没试过,是视频里学的)

     命令1:ssh-keygen -t rsa (四个回车)

         ~/.ssh  id-rsa(私钥)、id_rsa.pub(公钥)

    命令2:ssh-copy-id localhost

       拷贝公钥, ~/.ssh下产生了一个authorized_keys文件,是公钥的配置文件,查看下面两个文件,发现是一样的

   

   6、格式化hdfs

    

   报如下的错误,检查发现是mapred-site.xml标签</property>少了斜杠

    

修改再重新执行,成功

    

  7、启动Hadoop

   ①、启动start-dfs.sh

    

   启动成功

     

    浏览器输入127.0.0.1:50070,进入管理界面:

    

   ②、启动start-yarn.sh

     

    下面这几个缺一不可,必须全部启动才算成功

    

    浏览器输入127.0.0.1:8088,进入yarn管理界面

 

 

posted @ 2018-05-26 15:35  南边雪  阅读(142)  评论(0编辑  收藏  举报