Hadoop 入门笔记
环境准备
配置静态ip
vim /etc/sysconfig/network-scripts/ifcfg-ens32
ifcfg-ens32
# 网络类型为以太网
TYPE=Ethernet
# 设置固定ip,dhcp 改为 static
# BOOTPROTU=dhcp
BOOTPROTU=static
# 网卡设备名,一定要跟文件名一致
DEVICE=ens32
# 网卡设备名,一定要跟文件名一致
NAME=ens32
# 设定网卡随网络服务启动
# ONBOOT=no
ONBOOT=yes
# 固定ip
IPADDR=192.168.40.91
# 网关
GATEWAY=192.168.40.254
# 子网掩码
NETMASK=255.255.255.0
# DNS地址
DNS1=8.8.8.8
DNS2=114.114.114.114
重启网络服务,使生效
# 重启网络服务
service network restart
修改主机名
vim /etc/hostname
hostname
hadoop91 # reboot重启生效
修改hosts文件
vim /etc/hosts
hosts
# ip要和网卡配置中的静态ip一致,域名要和hosts文件中的主机名一致
192.168.40.91 hadoop91
192.168.40.92 hadoop92
192.168.40.93 hadoop93
重启网络服务,使生效
# 重启网络服务
service network restart
关闭防火墙
# 关闭防火墙
service iptables stop
# 禁用防火墙,开机自启关闭
chkconfig iptables off
# 查看防火墙状态
service iptables status
# 查看开机自启列表
chkconfig --list iptables
在关闭防火墙到时候,出现:
Redirecting to /bin/systemctl stop iptables.service
Failed to stop iptables.service: Unit iptables.service not loaded.
解决方法:
centos7
开始默认用的是firewalld
,这个是基于iptables
的,虽然有iptables
的核心,但是iptables
的服务是没安装的。所以你只要停止firewalld
服务即可:
# 安装防火墙
yum install firewalld firewall-config
# 停止防火墙
sudo systemctl stop firewalld
# 禁用防火墙,开机自启关闭
sudo systemctl disable firewalld
创建用户
# 添加用户
useradd hisign
# 设置密码
passwd hisign
配置用户root权限
修改/etc/sudoers
# 用户 haung 可以不用密码使用sudo
hisign ALL=(ALL) NOPASSWD: ALL
该文件为root用户的只读文件,可以在root用户修改完后强制保存
# ESC后,:wq! 强制保存
:wq!
创建文件夹
创建文件夹/opt/software、/opt/module用于存放安装包和安装软件
sudo mkdir /opt/software /opt/module
修改文件夹所有者
sudo chown hisign:hisign /opt/software /opt/module
安装jdk
首先到官网上下载你想要的jdk
# 进入目录
cd /opt/software
# 解压到指定目录
tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module
配置环境变量
sudo vim /etc/profile
输入大写的 G
跳转到文件末尾,在最后面添加:
# JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin
执行profile文件
source /etc/profile
这样可以使配置不用重启即可立即生效。
检查新安装的jdk
java -version
显示:
java version "1.8.0_144"
Java(TM) SE Runtime Environment (build 1.8.0_144-b01)
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode)
安装hadoop
hadoop历史版本下载地址
https://archive.apache.org/dist/hadoop/common/
# 进入目录
cd /opt/software
# 解压到指定目录
tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module
配置环境变量
sudo vim /etc/profile
输入大写的 G
跳转到文件末尾,在最后面添加:
# HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
执行profile文件
source /etc/profile
这样可以使配置不用重启即可立即生效。
检查新安装的jdk
hadoop version
到此安装结束
hadoop目录结构
drwxr-xr-x. 2 hisign hisign 194 5月 22 2017 bin
drwxr-xr-x. 3 hisign hisign 20 5月 22 2017 etc
drwxr-xr-x. 2 hisign hisign 106 5月 22 2017 include
drwxr-xr-x. 3 hisign hisign 20 5月 22 2017 lib
drwxr-xr-x. 2 hisign hisign 239 5月 22 2017 libexec
-rw-r--r--. 1 hisign hisign 15429 5月 22 2017 LICENSE.txt
-rw-r--r--. 1 hisign hisign 91 5月 22 2017 NOTICE.txt
-rw-r--r--. 1 hisign hisign 1366 5月 22 2017 README.txt
drwxr-xr-x. 2 hisign hisign 4096 5月 22 2017 sbin
drwxr-xr-x. 4 hisign hisign 31 5月 22 2017 share
重要目录
bin目录:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本
etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件
lib目录:存放Hadoop的本地库(对数据进行压缩解压缩功能)
sbin目录:存放启动或停止Hadoop相关服务的脚本
share目录:存放Hadoop的依赖jar包、文档、和官方案例
hadoop运行模式
本地运行模式
官方Grep案例
- 在hadoop-2.7.2文件下面创建一个input文件夹
mkdir input
- 将Hadoop的xml配置文件复制到input
cp etc/hadoop/*.xml input
- 执行share目录下的MapReduce程序
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
grep input output 'dfs[a-z.]+'
- 查看输出结果
cat output/*
显示
1 dfsadmin
官方WordCount案例
- 在hadoop-2.7.2文件下面创建一个wcinput文件夹
mkdir wcinput
- 在wcinput文件下创建一个wc.input文件
touch wcinput/wc.input
- 编辑wc.input文件
vi wcinput/wc.input
在文件中添加以下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu
- 执行share目录下的MapReduce程序
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
wcinput \
wcoutput
- 查看输出结果
cat wcoutput/*
显示
atguigu 2
hadoop 2
mapreduce 1
yarn 1
伪分布式运行模式
启动HDFS并运行程序
配置集群
- 配置 hadoop-env.sh
vim etc/hadoop/hadoop-env.sh
hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置 core-site.xml
vim etc/hadoop/core-site.xml
core-site.xml
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop91:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>
- 配置 hdfs-site.xml
vim etc/hadoop/hdfs-site.xml
hdfs-site.xml
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
启动集群
- 格式化NameNode(第一次启动时格式化,以后就不要总格式化)
bin/hdfs namenode -format
- 启动NameNode
sbin/hadoop-daemon.sh start namenode
- 启动DataNode
sbin/hadoop-daemon.sh start datanode
查看集群
查看是否启动成功
[hisign@hadoop91 hadoop-2.7.2]$ jps
2807 NameNode
3098 Jps
2892 DataNode
注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps
web端查看HDFS文件系统
http://hadoop91:50070/dfshealth.html#tab-datanode
如果能看,看hosts
文件是否配置hadoop91
查看产生的Log日志
说明:在企业中遇到Bug时,经常根据日志提示信息去分析问题、解决Bug。
ls opt/module/hadoop-2.7.2/logs
思考:为什么不能一直格式化NameNode,格式化NameNode,要注意什么?
注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致,集群找不到已往数据。所以,格式NameNode时,一定要先删除data数据和log日志,然后再格式化NameNode。
操作集群
- 在HDFS文件系统上创建一个input文件夹
bin/hdfs dfs -mkdir -p /user/hisign/input
- 将测试文件内容上传到文件系统上
bin/hdfs dfs -put wcinput/wc.input /user/hisign/input/
- 查看上传的文件是否正确
bin/hdfs dfs -ls /user/hisign/input/
bin/hdfs dfs -cat /user/hisign/input/wc.input
- 运行MapReduce程序
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input/ \
/user/hisign/output
- 查看输出结果
bin/hdfs dfs -cat /user/hisign/output/*
显示
atguigu 2
hadoop 2
mapreduce 1
yarn 1
- 将测试文件内容下载到本地
bin/hdfs dfs -get /user/hisign/output/part-r-00000 ./wcoutput/
- 删除输出结果
bin/hdfs dfs -rm -r /user/hisign/output
启动YARN并运行程序
配置集群
- 配置 yarn-env.sh
vim etc/hadoop/yarn-env.sh
yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置 yarn-site.xml
vim etc/hadoop/yarn-site.xml
yarn-site.xml
<configuration>
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop91</value>
</property>
</configuration>
- 配置 mapred-env.sh
vim etc/hadoop/mapred-env.sh
mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置 mapred-site.xml
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
vim etc/hadoop/mapred-site.xml
mapred-site.xml
<configuration>
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
启动集群
- 启动前必须保证
NameNode
和DataNode
已经启动
# 查看是否启动
jps
2807 NameNode
8217 Jps
2892 DataNode
# 启动 NameNode
sbin/hadoop-daemon.sh start namenode
# 启动 DataNode
sbin/hadoop-daemon.sh start datanode
- 启动
ResourceManager
sbin/yarn-daemon.sh start resourcemanager
- 启动
NodeManager
sbin/yarn-daemon.sh start nodemanager
操作集群
- YARN浏览器查看页面
- 删除HDFS文件系统上的output目录
bin/hdfs dfs -rm -R /user/hisign/output
- 执行MapReduce程序
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input \
/user/hisign/output
- 查看运行结果
bin/hdfs dfs -cat /user/hisign/output/*
显示
atguigu 2
hadoop 2
mapreduce 1
yarn 1
配置历史服务器
为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下
- 配置 mapred-site.xml
vim etc/hadoop/mapred-site.xml
mapred-site.xml
<configuration>
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop91:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop91:19888</value>
</property>
</configuration>
- 启动历史服务器
sbin/mr-jobhistory-daemon.sh start historyserver
- 查看历史服务器是否启动
jps
- 查看JobHistory
http://hadoop91:19888/jobhistory
配置日志的聚集
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到HDFS
系统上。
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动NodeManager
、ResourceManager
和HistoryServer
。
开启日志聚集功能具体步骤如下:
- 配置 yarn-site.xml
vim etc/hadoop/yarn-site.xml
yarn-site.xml
<configuration>
<!-- 日志聚集功能开启 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
</configuration>
- 关闭
NodeManager
、ResourceManager
和HistoryServer
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver
- 启动
NodeManager
、ResourceManager
和HistoryServer
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver
- 删除
HDFS
上已经存在的输出文件
bin/hdfs dfs -rm -R /user/hisign/output
- 执行WordCount程序
bin/hadoop jar \
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar \
wordcount \
/user/hisign/input \
/user/hisign/output
- 查看日志
http://hadoop91:19888/jobhistory
完全分布式运行模式
虚拟机准备
vmware中的完整克隆是基于指定的虚拟机克隆出相同的一份出来,不必再安装。但是我们要保证三个地方不能一样,一个是主机名称(hostname),还有一个是ip地址,所以我们在克隆后要对这三个地方进行修改。这里以centos为例
# 修改主机名
vim /etc/hostname
##########################
# hadoop91
hadoop92
# 修改静态ip
vim /etc/sysconfig/network-scripts/ifcfg-ens32
##########################
# 修改静态ip
# IPADDR=192.168.40.91
IPADDR=192.168.40.92
重启生效
reboot
集群分布脚本
scp 安全拷贝
- 定义:
scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
基本语法
#命令 递归 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称
scp -r $pdir/$fname $user@hadoop$host:$pdir/$fname
- 案例
1、在hadoop91上,将hadoop91中/opt/module目录下的软件拷贝到远程服务器hadoop92上。
[hisign@hadoop91 /]$ scp -r /opt/module root@hadoop92:/opt/module
2、在hadoop93上,将远程服务器hadoop91服务器上的/opt/module目录下的软件拷贝到本地。
[hisign@hadoop93 opt]$sudo scp -r hisign@hadoop91:/opt/module /opt/module
3、在hadoop93上操作将hadoop91中/opt/module目录下的软件拷贝到hadoop94上。
[hisign@hadoop93 opt]$ scp -r hisign@hadoop91:/opt/module root@hadoop94:/opt/module
注意:拷贝过来的/opt/module目录,别忘了在hadoop92、hadoop93、hadoop94上修改所有文件的,所有者和所有者组。
sudo chown hisign:hisign -R /opt/module
4、将hadoop91中/etc/profile文件拷贝到hadoop92的/etc/profile上。
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop92:/etc/profile
5、将hadoop91中/etc/profile文件拷贝到hadoop93的/etc/profile上。
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop93:/etc/profile
6、将hadoop91中/etc/profile文件拷贝到hadoop94的/etc/profile上。
[hisign@hadoop91 ~]$ sudo scp /etc/profile root@hadoop94:/etc/profile
注意:拷贝过来的配置文件别忘了 source /etc/profile
使生效。
rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
- 基本语法
# 命令 选项参数 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称
rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname
- 案例
把hadoop91机器上的/opt/software目录同步到hadoop92服务器的root用户下的/opt/目录
rsync -av /opt/software/ hadoop92:/opt/software
xsync 集群分布脚本
1、需求:循环复制文件到所有节点的相同目录下
2、需求分析:
- rsync命令原始拷贝:
rsync -av /opt/module root@hadoop93:/opt/
- 期望脚本:
xsync 要同步的文件名称
- 说明:在
/home/hisign/bin
这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。
3、脚本实现
在/home/hisign
目录下创建bin
目录,并在bin目录下xsync创建文件,文件内容如下:
mkdir -p /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim xsync
在该文件中编写如下代码
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=91; host<94; host++)); do
echo ------------------- hadoop$host --------------
rsync -av $pdir/$fname $user@hadoop$host:$pdir
done
- 修改脚本 xsync 具有执行权限
chmod 777 xsync
- 调用脚本形式:xsync 文件名称
xsync /home/hisign/bin
注意:如果将xsync放到/home/hisign/bin
目录下仍然不能实现全局使用,可以将xsync移动到/usr/local/bin
目录下。
sudo mv /home/hisign/bin/xsync /usr/local/bin
集群配置
集群部署规划
hadoop91 | hadoop92 | hadoop93 | |
---|---|---|---|
HDFS | NameNode DataNode | DataNode | SecondaryNameNode DataNode |
YARN | NodeManager | ResourceManager NodeManager | NodeManager |
配置集群
核心配置文件
配置core-site.xml
[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vi core-site.xml
在该文件中编写如下配置
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop91:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>
HDFS配置文件
配置hadoop-env.sh
[hisign@hadoop91 hadoop]$ vi hadoop-env.sh
hadoop-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
配置hdfs-site.xml
[hisign@hadoop91 hadoop]$ vi hdfs-site.xml
在该文件中编写如下配置
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop93:50090</value>
</property>
</configuration>
YARN配置文件
配置yarn-env.sh
[hisign@hadoop91 hadoop]$ vi yarn-env.sh
yarn-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
配置yarn-site.xml
[hisign@hadoop91 hadoop]$ vi yarn-site.xml
在该文件中增加如下配置
<configuration>
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop92</value>
</property>
</configuration>
MapReduce配置文件
配置mapred-env.sh
[hisign@hadoop91 hadoop]$ vi mapred-env.sh
mapred-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
配置mapred-site.xml
[hisign@hadoop91 hadoop]$ cp mapred-site.xml.template mapred-site.xml
[hisign@hadoop91 hadoop]$ vi mapred-site.xml
在该文件中增加如下配置
<configuration>
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
在集群上分发配置好的Hadoop配置文件
xsync /opt/module/hadoop-2.7.2/
查看文件分发情况
cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/hdfs-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/yarn-site.xml
cat /opt/module/hadoop-2.7.2/etc/hadoop/mapred-site.xml
集群单点启动
如果集群是第一次启动,需要格式化NameNode
[hisign@hadoop91 hadoop-2.7.2]$ hdfs namenode -format
在hadoop91上启动NameNode
[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[hisign@hadoop91 hadoop-2.7.2]$ jps
显示
14849 Jps
14782 NameNode
在hadoop91、hadoop92以及hadoop93上分别启动DataNode
[hisign@hadoop91 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop91 hadoop-2.7.2]$ jps
显示
14936 Jps
14873 DataNode
14782 NameNode
[hisign@hadoop92 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop92 hadoop-2.7.2]$ jps
显示
14013 DataNode
14045 Jps
[hisign@hadoop93 hadoop-2.7.2]$ hadoop-daemon.sh start datanode
[hisign@hadoop93 hadoop-2.7.2]$ jps
显示
13739 DataNode
13774 Jps
思考:每次都一个一个节点启动,如果节点数增加到1000个怎么办?
早上来了开始一个一个节点启动,到晚上下班刚好完成,下班?
SSH免密登录
原理:
https://www.cnblogs.com/haojun/p/11131432.html
工作原理如下图所示:
生成公钥和私钥:
[hisign@hadoop91 /]$ ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件id_rsa
(私钥)、id_rsa.pub
(公钥)
[hisign@hadoop91 /]$ cd ~/.ssh/
[hisign@hadoop91 .ssh]$ ll
显示
总用量 12
-rw-------. 1 hisign hisign 1675 11月 9 09:58 id_rsa
-rw-r--r--. 1 hisign hisign 397 11月 9 09:58 id_rsa.pub
-rw-r--r--. 1 hisign hisign 372 11月 9 09:15 known_hosts
将公钥拷贝到要免密登录的目标机器上
ssh-copy-id
可以把本地主机的公钥复制到远程主机的authorized_keys
文件上,ssh-copy-id
命令也会给远程主机的用户主目录(home
)和~/.ssh
, 和~/.ssh/authorized_keys
设置合适的权限。
# 给用户hisign配置免密登录
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop91
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop92
[hisign@hadoop91 .ssh]$ ssh-copy-id hadoop93
注意:在hadoop92和hadoop93上把上面的操作都再执行一遍,三台服务器就能互相之间进行免密登录了。如果想要其他用户也能进行免密登录,切换到其他用户执行上操作即可。
群起集群
配置slaves
[hisign@hadoop91 /]$ cd /opt/module/hadoop-2.7.2/etc/hadoop
[hisign@hadoop91 hadoop]$ vim slaves
在该文件中增加如下内容:
hadoop91
hadoop92
hadoop93
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件
xsync slaves
启动集群
1、如果集群是第一次启动,需要格式化NameNode
(注意格式化之前,一定要先停止上次启动的所有namenode
和datanode
进程,然后再删除data
和log
数据)
[hisign@hadoop91 hadoop-2.7.2]$ bin/hdfs namenode -format
2、启动HDFS
[hisign@hadoop91 hadoop-2.7.2]$ sbin/start-dfs.sh
[hisign@hadoop91 hadoop-2.7.2]$ jps
18627 DataNode
18836 Jps
18495 NameNode
[hisign@hadoop92 hadoop-2.7.2]$ jps
15957 Jps
15883 DataNode
[hisign@hadoop93 hadoop-2.7.2]$ jps
15891 SecondaryNameNode
15787 DataNode
15932 Jps
3、启动YARN
[hisign@hadoop92 hadoop-2.7.2]$ sbin/start-yarn.sh
16004 ResourceManager
16106 NodeManager
15883 DataNode
16205 Jps
注意:NameNode
和ResourceManger
如果不是同一台机器,不能在NameNode
上启动 YARN
,应该在ResouceManager
所在的机器上启动YARN
。
4、Web端查看SecondaryNameNode
http://hadoop93:50090/status.html
查看集群
jps
能查看当前节点的java进程,但是节点多了,得切换到别的节点去查看,所以写个shell
脚本查看所有节点的java进程
- 说明:在
/home/hisign/bin
这个目录下存放的脚本,hisign用户可以在系统任何地方直接执行。
在/home/hisign
目录下创建bin
目录,并在bin目录下jpsall创建文件,文件内容如下:
mkdir -p /home/hisign/bin
cd /home/hisign/bin
# 新建脚本
vim jpsall
在该文件中编写如下代码
#!/bin/bash
# 循环
for((host=91; host<94; host++)); do
echo ------------------- hadoop$host --------------
ssh hadoop$host "jps" | grep -v Jps
done
- 修改脚本 jpsall 具有执行权限
chmod +x jpsall
- 调用脚本形式:jpsall 文件名称
jpsall
注意:如果将xsync放到/home/hisign/bin
目录下仍然不能实现全局使用,可以将jpsall移动到/usr/local/bin
目录下。
sudo mv /home/hisign/bin/jpsall /usr/local/bin
集群基本测试
1、上传文件到集群
- 上传小文件
[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -mkdir -p /user/hisign/input
[hisign@hadoop91 hdoop-2.7.2]$ hdfs dfs -put wcinput/wc.input /user/hisign/input
- 上传大文件
bin/hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/hisign/input
2、上传文件后查看文件存放在什么位置
/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-917863227-192.168.40.91-1604892333948/current/finalized/subdir0/subdir0/
3、查看HDFS在磁盘存储文件内容
[hisign@hadoop91 subdir0]$ ll
总用量 194552
-rw-rw-r--. 1 hisign hisign 45 11月 9 12:25 blk_1073741825
-rw-rw-r--. 1 hisign hisign 11 11月 9 12:25 blk_1073741825_1001.meta
-rw-rw-r--. 1 hisign hisign 134217728 11月 9 12:29 blk_1073741826
-rw-rw-r--. 1 hisign hisign 948583 11月 9 12:29 blk_1073741826_1002.meta
-rw-rw-r--. 1 hisign hisign 63439959 11月 9 12:29 blk_1073741827
-rw-rw-r--. 1 hisign hisign 495635 11月 9 12:29 blk_1073741827_1003.meta
[hisign@hadoop91 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce
atguigu
atguigu
4、拼接
[hisign@hadoop91 subdir0]$ cat blk_1073741825 >> tmp.file
[hisign@hadoop91 subdir0]$ cat blk_1073741827 >> tmp.file
5、下载
[hisign@hadoop91 subdir0]$ cd -
[hisign@hadoop91 hadoop-2.7.2]$ pwd
/opt/module/hadoop-2.7.2
bin/hadoop fs -get /user/hisign/input/hadoop-2.7.2.tar.gz ./
集群启动/停止
- 各个服务组件逐一启动/停止
(1)分别启动/停止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
(2)启动/停止YARN
yarn-daemon.sh start / stop resourcemanager / nodemanager
- 各个模块分开启动/停止(配置ssh是前提)常用
(1)整体启动/停止HDFS
start-dfs.sh / stop-dfs.sh
(2)整体启动/停止YARN
start-yarn.sh / stop-yarn.sh
sbin/start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager
sbin/start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode、DataNode
sbin/stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode
sbin/hadoop-daemons.sh start namenode 单独启动NameNode守护进程
sbin/hadoop-daemons.sh stop namenode 单独停止NameNode守护进程
sbin/hadoop-daemons.sh start datanode 单独启动DataNode守护进程
sbin/hadoop-daemons.sh stop datanode 单独停止DataNode守护进程
sbin/hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程
sbin/hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程
sbin/start-yarn.sh 启动ResourceManager、NodeManager
sbin/stop-yarn.sh 停止ResourceManager、NodeManager
sbin/yarn-daemon.sh start resourcemanager 单独启动ResourceManager
sbin/yarn-daemons.sh start nodemanager 单独启动NodeManager
sbin/yarn-daemon.sh stop resourcemanager 单独停止ResourceManager
sbin/yarn-daemons.sh stopnodemanager 单独停止NodeManager
sbin/mr-jobhistory-daemon.sh start historyserver 手动启动jobhistory
sbin/mr-jobhistory-daemon.sh stop historyserver 手动停止jobhistory
集群时间同步
时间同步的方式:找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。
时间服务器配置
必须root用户
1、检查ntp是否安装
[root@hadoop91 ~]# rpm -qa|grep ntp
ntp-4.2.6p5-29.el7.centos.2.x86_64
ntpdate-4.2.6p5-29.el7.centos.2.x86_64
如果没有安装,先安装
yum install ntp -y
2、修改ntp配置文件
[root@hadoop91 ~]# vi /etc/ntp.conf
- 修改1,授权192.168.40.0-192.168.40.255网段上的所有机器可以从这台机器上查询和同步时间
# restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap
- 修改2,集群在局域网中,不使用其他互联网上的时间
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
- 增加如下内容,当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
server 127.127.1.0
fudge 127.127.1.0 stratum 10
3、修改/etc/sysconfig/ntpd 文件
[root@hadoop91 ~]# vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
4、重新启动ntpd服务
# 查看服务状态
[root@hadoop91 ~]# service ntpd status
# 启动服务
[root@hadoop91 ~]# service ntpd start
# 停止服务
[root@hadoop91 ~]# service ntpd stop
# 重启服务
[root@hadoop91 ~]# service ntpd restart
5、设置ntpd服务开机自启
[root@hadoop91 ~]# chkconfig ntpd on
其他机器配置
必须root用户
1、在其他机器配置10分钟与时间服务器同步一次
[root@hadoop91 ~]# crontab -e
编写定时任务如下:
*/10 * * * * /usr/sbin/ntpdate hadoop91
2、修改任意机器时间
[root@hadoop91 ~]# date -s "2017-9-11 11:11:11"
3、十分钟后查看机器是否与时间服务器同步
[root@hadoop91 ~]# date
说明:测试的时候可以将10分钟调整为1分钟,节省时间。
*/1 * * * * /usr/sbin/ntpdate hadoop91