Hadoop完全分布式运行模式搭建之基础安装
一、JDK 配置
Hadoop 运行需要依赖于 JDK 环境,下载好 Linux 版并解压到 /opt/module/jdk1.8.0_212 里
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/
然后为 JDK 设置环境变量,在 /etc/profile.d 下新建 my_env.sh,写入如下内容:
#JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin
最后执行 source /etc/profile 使得环境变量生效即可
二、Hadoop 安装
在 https://hadoop.apache.org/releases.html 下载合适的版本,解压到 /opt/module/hadoop-3.1.3 里
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/
在 my_env.sh 继续写入如下
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
最后执行 source /etc/profile 使得环境变量生效即可
三、将环境分发到集群的所有机器
面对大量的机器,对每台分别进行环境的安装是不现实的,因此我们使用脚本进行批量拷贝到所有服务器。
1.scp(secure copy)安全拷贝
scp 可以实现服务器与服务器之间的数据拷贝。 -r 表示递归的将某个目录传输
- 将 JDK 拷贝到另一台主机
scp -r jdk1.8.0_212/ aitw@hadoop103:/opt/module/
- 在hadoop103 上将 hadoop102的文件拷贝到 hadoop104
scp -r aitw@hadoop102:/opt/module/* aitw@hadoop104:/opt/module/
2.rsync 远程同步工具
rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更新。scp 是把所有文件都复制过去。
rsync -av hadoop-3.1.3/ aitw@hadoop103:/opt/module/hadoop-3.1.3/
4.SSH 无密登录配置
在使用 scp 或 rsync 时,每次都会要求登录目标主机,这是非常繁琐的,因此我们可以配置 SSH 的公钥进行免密登录。一共两步:
- 在A主机执行以下命令并按3次回车:
ssh-keygen -t rsa
- 将A主机生成的 id_rsa.pub 文件内容发送到B主机
ssh-copy-id hadoop103
- 然后在B主机直接登录到A主机
ssh username@HostB
没有修不好的电脑