hadoop安装

1.修改主机名和用户名 
1.1 创建用户 
在开始时,建议创建一个单独的用户Hadoop以从Linux文件系统隔离Hadoop文件系统。按照下面给出的步骤来创建用户: 

$ useradd hadoop
$ passwd hadoop
密码设置为123456

1.2 设置主机名
修改主机名 vim /etc/sysconfig/network
把HOSTNAME后的名称,修改为 master,如果有其他节点,分别修改为slave1 、slave2 ...

1.3 节点间互相访问 
执行vim /etc/hosts ,在末尾加上:
192.168.30.150 master
如果是分布式,还需要加上:
192.168.30.151 slave1
...

2.配置SSH无密码连接
2.1 关闭防火墙 
永久关闭防火墙:
执行:chkconfig iptables off

2.2 查看SSH是否安装 
执行:
yum install ssh
yum install rsync   (rsync是一个远程数据同步工具)

启动SSH服务命令:
service sshd restart
检查是否安装成功,执行:
rpm -qa | grep openssh 
rpm -qa | grep rsync

2.3 生成SSH公钥 
首先在主节点上(以hadoop用户)执行:
ssh-keygen -t rsa  遇到提示回车
生成公钥后,需要发送至本机的authorized_keys的列表,执行:
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@master 
如果是完全分布式安装,需要把公钥复制到其他节点中,执行:
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop@slave2
...  

2.3 验证安装 
hadoop用户执行:
ssh master 如果没有出现输入密码提示则安装成功,否则需要执行:
chmod 700 /home/hadoop/.ssh
chmod 644 /home/hadoop/.ssh/authorized_keys

3.安装JDK
3.1 卸载JDK
查询已安装的JDK版本:
执行:rpm -qa | grep jdk
卸载命令:
执行:yum -y remove xxx     (xxx是查询后的jdk名称) 

3.2 安装JDK
下载jdk到本地,解压:
tar -xzvf jdk-xxx.tar.gz
配置环境变量,vim /etc/profile 后追加:
export JAVA_HOME=/opt/jdk1.8.0_121
export PATH=$PATH:$JAVA_HOME/bin
立即生效,执行:
source /etc/profile 

3.2 验证安装
执行: 
java -version 

4.配置Hadoop
4.1 下载解压 (hadoop用户)
使用时2.6.0-cdh5.6.0版本,放在/opt文件下:
tar -zxvf hadoop-2.6.0-cdh5.6.0

4.2 修改配置文件 (hadoop用户)
(1)修改hadoop-env.sh ,文件结尾追加:
 export JAVA_HOME=/opt/jdk1.8.0_121
 export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0

 (2)修改core-site.xml ,core-site.xml文件中包含如读/写缓冲器用于Hadoop的实例的端口号的信息,分配给文件系统存储,用于存储所述数据存储器的限制和大小。打开core-site.xml 并在<configuration>,</configuration>标记之间添加以下属性:

<configuration>
 
   <property>
      <name>fs.default.name </name>
      <value> hdfs://localhost:9000 </value> 
   </property>
 
</configuration>
 

(3)修改hdfs-site.xml ,文件中包含如复制数据的值,NameNode路径的信息,本地文件系统的数据节点的路径。这意味着是存储Hadoop基础工具的地方:

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/opt/hdfs/name</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/opt/hdfs/data</value>
  </property>
</configuration>
 

 

(4)修改mapred-site.xml ,该项配置指明了MapReduce计算框架基于YARN进行工作:

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration
 

(5)修改yarn-site.xml ,该项配置指明了ResourceManager服务的主机名和端口号:

<configuration>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>master:8080</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>master:8082</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>
 

(6)修改slaves :
修改为 master .
如果是完全分布模式需要加上:
slave1
slave2
... 
然后利用scp命令将安装文件夹分发到其他节点相同路径下:
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave1:/opt 
scp -r /opt/hadoop-2.6.0-cdh5.6.0 hadoop@slave2:/opt  
 

4.3 配置环境变量 (root用户,所有节点都需要执行)
修改 vim /etc/profile 后追加:
export HADOOP_HOME=/opt/hadoop-2.6.0-cdh5.6.0
export PATH=$PATH:$HADOOP_HOME/bin
立即生效,执行:
source /etc/profile 

5.格式化HDFS
第一次启动时,必须先将HDFS格式化,执行:
hadoop namenode -format 

6.启动Hadoop
首先root用户赋予hadoop执行权限:
chmod +x -R /opt/hadoop-2.6.0-cdh5.6.0/sbin
启动命令,hadoop用户执行:
./opt/hadoop-2.6.0-cdh5.6.0/sbin/start-all.sh

使用jps,查看经常名称:

29072 Jps
26977 NodeManager
26885 ResourceManager
26567 DataNode
26477 NameNode
26750 SecondaryNameNode
posted @ 2018-09-07 15:50  黒貓  阅读(155)  评论(0编辑  收藏  举报