hadoop2.2 伪分布式环境

在安装JDK之前，请确认系统是32还是64，根据系统版本，选择JDK版本、Hadoop版本

下面是以在CentOS-6.5-x86_64系统上安装为例

安装前准备
1. 在"/usr"下创建java目录，并cd到该目录，如下
1. 确认防火墙关闭
    防火墙关闭后的效果如下



    具体操作，请查看"XX/XX/XX/ notes/防火墙.docx"
1. 确认安装openssh-server、openssh-clients，具体操作，请参考"XX/XX/XX/notes/安全登录ssh.docx"文件
JDK安装
1. 上传JDK
  1. 使用rz命令，进行文件上传，效果如下图
    
    rz安装过程，请参考"XX/XX/XX/上传下载lrzsz"
    
    rz具体操作，请参考"XX/notes/command/上传下载rz、sz命令.docx"
2. 解压"jdk-7u79-linux-x64.gz"
  1. 输入"tar -zxvf jdk-7u79-linux-x64.gz"命令进行解压，如下图
1. 解压后的效果
tar具体操作，请参考"XX/notes/command/打包tar命令.docx"
1. 设置JDK环境变量
  1. 在"/etc/profile.d"下创建"java.sh"脚本来配置环境变量
1. 通过source命令，使"java.sh"生效；使用java –version看看jdk是否安装成功，如下
具体配置环境变量，请参考"XX\jdk\环境变量.docx"
ip与hostname做关联
1. 输入"ifconfig"，查看系统ip
建议改成静态ip，具体操作，请参考相应系统下的"通信配置.docx"
1. 编辑hosts文件，如下

主机名是"ljc"，效果如下

保存，退出

创建hadoop用户
1. 创建hadoop用户组
1. 创建hadoop用户
1. 设置hadoop密码
SSH配置
1. 切换到hadoop用户

输入"ssh-keygen -t rsa"，生成秘钥

进入到.ssh目录，使用"cp id_rsa.pub authorized_keys"命令，把公钥复制到认证文件(authorized_keys)中，如下所示

确保.ssh目录的权限是700（使用chmod 700 .ssh命令修改），确保authorized_key、id_rsa.pub文件的权限是600（使用chmod 600 authorized_keys id_rsa.pub命令修改），如下所示

Hadoop环境配置
1. 切换到"/usr/java"目录下，将准备好hadoop安装包"hadoop-2.2.0-x64.tar.gz"上传，如下所示
1. 将"hadoop-2.2.0-x64.tar.gz"文件进行解压
1. 将"hadoop-2.2.0"改为"hadoop"，如下所示
1. 使用chown命令，修改hadoop的权限，如下
1. 创建hadoop数据目录并修改/data目录的所有人为hadoop、组为hadoop，如下所示
  
  /data/dfs/name：namenode的文件目录
  
  /data/dfs/data：datanode的文件目录
  
  /data/tmp：存放数据的公共目录
2. 修改hadoop配置文件
  
  修改内容如下：
  1. core-site.xml
  1. hdfs-site.xml
  1. mapred-site.xml
    根据mapred-site.xml.template复制一份，并改名为mapred-site.xml
1. yarn-site.xml
1. slaves
1. 设置hadoop环境变量
  1. 以root用户，编辑"/etc/profile"，如下所示
1. 在文件最后添加如下内容
1. 保存，退出
2. 使用source命令，使文件生效
1. 测试运行
  1. 切换到hadoop用户下
  1. 格式化namenode，如下所示
  1. 启动集群，如下所示
  1. 查看集群启动情况，如下，说明集群启动成功
  1. 在window下，配置hostname与ip的对应关系，便于我们的访问
  修改"C:\Windows\System32\drivers\etc\hosts"文件，如下
  1. 输入http://ljc:50070/dfshealth.jsp，查看namenode、文件系统的状态
  2. 使用hadoop自带的WordCount程序来测试运行一下
    1. 创建测试文件ljc.txt，在当前目录下已给出
    2. 在hdfs上创建buaa目录，如下
    3. 将刚刚创建的ljc.txt上传到hdfs中的/buaa目录下，如下
    4. 打开http://ljc:8088/cluster/apps，动态查看作业运行情况
    5. 单击"RUNNING",发现没有正在运行的程序
    6. 输入"bin/hadoop -jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /buaa/ljc.txt /buaa/wordcount-out"，运行wordcount程序，如下所示
      
      单击"RUNNING"，查看作业运行状态
      
      运行完成，单击"FINSHED"，如下
      
      输入http://ljc:50070/dfshealth.jsp，查看运行结果
      
      单击"Browse the filesystem"，打开如下界面
      
      单击"buaa"，打开如下界面
      
      单击"wordcount-out"，打开如下界面
      
      单击"part-r-00000"，打开如下界面
      
      和我们从ljc.txt文件看出来的结果是一致的