大数据-02-Hadoop集群 XML配置超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece 原创

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

Hadoop（正在更新）

在这里插入图片描述

章节内容

上一节完成了：

Java的环境配置
Hadoop环境配置

顺利完成了基础环境的配置，但是对于Hadoop来说，目前还有一些XML的配置需要我们修改，这样后续才能组装成集群来运行。
接下来我们就进行一些XML的配置。Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置。

背景介绍

这里是三台公网云服务器，每台 2C4G，搭建一个Hadoop的学习环境，供我学习。
之前已经在 VM 虚拟机上搭建过一次，但是没留下笔记，这次趁着前几天薅羊毛的3台机器，赶紧尝试在公网上搭建体验一下。

注意，如果你和我一样，打算用公网部署，那一定要做好防火墙策略，避免不必要的麻烦！！！
注意，如果你和我一样，打算用公网部署，那一定要做好防火墙策略，避免不必要的麻烦！！！
注意，如果你和我一样，打算用公网部署，那一定要做好防火墙策略，避免不必要的麻烦！！！

请大家都以学习为目的，也请不要对我的服务进行嗅探或者攻击！！！
请大家都以学习为目的，也请不要对我的服务进行嗅探或者攻击！！！
请大家都以学习为目的，也请不要对我的服务进行嗅探或者攻击！！！

但是有一台公网服务器我还运行着别的服务，比如前几天发的：autodl-keeper 自己写的小工具，防止AutoDL机器过期的。还跑着别的Web服务，所以只能挤出一台 2C2G 的机器。那我的配置如下了：

2C4G 编号 h121
2C4G 编号 h122
2C2G 编号 h123

基本介绍

HDFS（Hadoop Distributed File System）是Apache Hadoop框架中用于存储大数据的分布式文件系统。它具有高容错性和高扩展性的特点，专为在廉价硬件上运行而设计，能够处理大规模数据集。

核心概念

文件系统架构：HDFS基于主从架构，由NameNode（主节点）和多个DataNode（数据节点）组成：NameNode负责存储元数据，如文件目录、块位置信息等。它不会存储文件本身，而是维护文件块与DataNode的映射。DataNode负责实际存储文件数据。HDFS将文件拆分成多个固定大小的块（默认64MB或128MB），并将这些块分布式存储在不同的DataNode上。
冗余与容错：为了保证数据安全，每个数据块都会被复制到多个DataNode上，默认是三个副本。这种机制可以防止数据丢失，即使某些节点发生故障，数据仍可从其他副本中恢复。
流式数据访问：HDFS适合一次写入、多次读取的访问模式，主要用于批处理场景。它不支持像传统文件系统那样的随机写操作。

工作流程

数据写入：客户端将文件写入HDFS时，文件会被拆分成块并分别存储到不同的DataNode上。NameNode会记录每个数据块的位置信息。当写入完成后，副本机制开始将数据复制到其他DataNode。
数据读取：客户端从HDFS读取文件时，首先从NameNode获取文件块的位置信息，然后直接从对应的DataNode下载文件块。这种设计使得数据读取可以并行化，提升了读性能。

优势

可扩展性：HDFS可以水平扩展，通过增加DataNode来扩大存储容量。
高容错性：由于数据块的多副本机制，HDFS能有效应对硬件故障。当某个DataNode失效时，数据依然可从其他副本恢复。
数据本地化：在Hadoop MapReduce中，计算任务会尽量安排在数据存储节点附近，以减少网络传输，提高计算效率。

局限性

不支持低延迟数据访问：HDFS更适合批处理场景，不适合低延迟的实时查询。
单点故障：NameNode作为整个系统的元数据管理者，如果NameNode故障，整个HDFS将无法正常工作。不过，通过引入高可用（HA）机制，这个问题可以得到解决。
小文件问题：HDFS对小文件的处理效率较低，因为每个文件都需要元数据管理，小文件过多会给NameNode带来较大压力。

集群配置

由于我也是参考着别人的内容，这里有一个对应的关系：

h121对应linux121
h122对应linux122
h123对应linux123

我们需要配置的内容如下图：
Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置

按照上图，一步一步来配置。

HDFS集群

运行环境

cd /opt/servers/hadoop-2.9.2/etc/hadoop

修改 hadoop 的运行内容

vim hadoop-env.sh

找到 JAVA_HOME 的部分，配置为我们上节配置的地址：(防止后续的一系列不必要的问题，血泪史)
在这里插入图片描述

NameNode

cd /opt/servers/hadoop-2.9.2/etc/hadoop

修改 core-site.xml

sudo vim core-site.xml

添加如下的内容

<!-- HDFS NameNode 地址 -->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://h121.wzk.icu:9000</value>
</property>
<property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/servers/hadoop-2.9.2/data/tmp</value>
</property>

当前的完整配置如下：
在这里插入图片描述

core-site.xml 中的所有参数地址：https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml

SecondaryNameNode

vim hdfs-site.xml

将下面的内容加入进去：

<!-- Hadoop 辅助节点地址 -->
<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>h123.wzk.icu:50090</value>
</property>
<!-- 副本数量 -->
<property>
        <name>dfs.replication</name>
        <value>3</value>
</property>

当前的完整配置如下：
在这里插入图片描述

DataNode

sudo vim slaves

这里是你的3台节点的名称，或者域名。
在这里插入图片描述

MapReduce集群

运行环境

sudo vim mapred-env.sh

加入 JAVA_HOME 的环境，避免后续的不必要的问题。

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

当前配置如下：
在这里插入图片描述

mapred-site

我们需要将默认的模板修改过来，并在这个基础上进行修改：

sudo mv mapred-site.xml.template mapred-site.xml
sudo vim mapred-site.xml

加入如下的内容

<!-- 指定MR运行在Yarn上 -->
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
</property>

在这里插入图片描述

Yarn集群

运行环境

 sudo vim yarn-env.sh

同前文，这里就不赘述了。也是修改 JAVA_HOME，避免后续不必要的麻烦！

yarn-site

sudo vim yarn-site.xml

加入如下的内容：

<!-- 指定YARN的ResourceManager的地址 -->
<property>
        <name>yarn.resourcemanager.hostname</name>
        <value>h123.wzk.icu</value>
</property>
<!-- Reducer获取数据的方式 -->
<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
</property>
</configuration>

在这里插入图片描述

NodeManager

修改 slaves 文件，前文已经修改，这里就不需要了。

统一权限

现在已经完成了初步的配置，下面我们统一一下权限，防止后续出现权限问题：

sudo chown -R root:root /opt/servers/hadoop-2.9.2

DNS 修改

我是公网云，所以我统一一下DNS，避免后续不必要的麻烦（也可以不弄，问题不大）

vim /etc/resolv.conf

我使用的是阿里的DNS

223.5.5.5

修改的截图如下：
在这里插入图片描述

posted @ 2024-06-28 09:37 武子康阅读(0) 评论(0) 编辑收藏举报来源

刷新页面返回顶部

· 大数据-01-基础环境搭建超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece 原创

· Hadoop大数据框架学习（配置启动篇）

· |NO.Z.00004|——————————|Deployment|——|Hadoop&Spark环境部署.v04|——|Hadoop.v04|集群组件部署|

· 大数据 Hadoop 集群安装

阅读排行：
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码，我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· 白话解读 Dapr 1.15：你的「微服务管家」又秀新绝活了
· 上周热点回顾（2.24-3.2）

公告

昵称：武子康
园龄： 7个月
粉丝： 3
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类

大模型 LLM(1)

随笔档案

阅读排行榜

1. LLM-01 大模型本地部署运行 ChatGLM2-6B-INT4(6GB) 简单上手环境配置单机单卡多卡 2070Super8GBx2 打怪升级！(404)

大数据-02-Hadoop集群 XML配置超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece 原创

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

背景介绍

基本介绍

核心概念

工作流程

优势

局限性

集群配置

HDFS集群

运行环境

NameNode

SecondaryNameNode

DataNode

MapReduce集群

运行环境

mapred-site

Yarn集群

运行环境

yarn-site

NodeManager

统一权限

DNS 修改

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜

大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece 原创

点一下关注吧！！！非常感谢！！持续更新！！！

目前已经更新到了：

章节内容

背景介绍

基本介绍

核心概念

工作流程

优势

局限性

集群配置

HDFS集群

运行环境

NameNode

SecondaryNameNode

DataNode

MapReduce集群

运行环境

mapred-site

Yarn集群

运行环境

yarn-site

NodeManager

统一权限

DNS 修改

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜

大数据-02-Hadoop集群 XML配置超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece 原创