Hadoop完全分布式安装部署
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。我们本次主要完成搭建实际生产环境中比较常用的完全分布式模式,搭建完全分布式模式之前需要对集群部署进行提前规划,不要将过多的服务集中到一台节点上,我们将负责管理工作的namenode和ResourceManager分别部署在两台节点上,另外一台节点上部署SecondaryNamenode,所有节点均承担Datanode和Nodemanager角色,并且datanode和nodemanager通常存在同一节点上,所有角色尽量做到均衡分配。
集群部署规划如表1。
对集群角色的分配主要依靠配置文件制定,配置集群文件细节如下。
(1)核心配置文件core-site.xml,该配置文件属于Hadoop的全局配置文件,我们主要进行配置分布式文件系统的入口地址NameNode的地址和分布式文件系统中数据落地到服务器本地磁盘位置的配置,如下:
(2)Hadoop环境配置文件hadoop-env.sh,在这个配置文件中我们主要需要制定jdk的路径JAVA_HOME,避免程序运行中出现JAVA_HOME找不到的异常。
(3) HDFS配置文件hdfs-site.xml,在这个配置文件中主要进行配置HDFS文件系统属性配置。
(4)YARN的环境配置文件yarn-env.sh,同样将JAVA_HOME路径配置指明。
(5)关于YARN的配置文件yarn-site.xml,其中配置YARN的相关参数,主要配置一下两个参数。
(6)mapreduce的环境配置文件mapred-env.sh,同样将JAVA_HOME路径配置指明。
(7)关于MapReduce的配置文件mapred-site.xml,主要配置一个参数,指明MapReduce的运行框架为YARN.
(8) 主节点NameNode和ResourceManager的角色在配置文件中已经做了配置,从节点的角色还需指定,配置文件slaves就是用来配置Hadoop集群中各个从节点角色的。如下,对slaves文件进行修改,即将3台节点全部指定为从节点,可以启动DataNode和NodeManager进程。
(9)在集群上分发配置好的Hadoop配置文件,这样3台节点即享有相同的Hadoop的配置,可准备通过不同的进程启动命令进行启动了。
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/
(10)查看文件分发情况
[atguigu@hadoop103 hadoop]$ cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml
创建数据目录
根据core-site.xml中配置的分布式文件系统最终落地到各个数据节点上的本地磁盘位置信息/opt/module/hadoop-2.7.2/data/tmp,自行创建该目录。
启动Hadoop集群
(1)如果集群是第一次启动,需要格式化NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ hadoop namenode -format
(2)通过start-dfs.sh命令在配置了namenode的节点启动HDFS,即可同时启动所有的datanode和SecondaryNameNode节点。
(3)通过start-yarn.sh命令启动yarn,
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
通过jps命令可在各个节点上查看进程启动情况,显示如下所示即表示启动成功。
Web UI查看集群是否启动成功
(1) 通过web端输入我们之前配置的NameNode节点地址和端口号50070我们可以查看HDFS文件系统,例如:浏览器中输入:http://hadoop102:50070 ,可以检查NameNode和DataNode是否正常。如图1所示
图1 NameNode的web端
图2 YARN的web端
6. 运行PI实例检查集群是否启动成功
在集群任意节点上执行下面的命令,如果看到如图3所示的执行结果,则说明集群启动成功。
图3 PI实例运行结果
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通