随笔 - 437 文章 - 0 评论 - 342 阅读 - 50万

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

欢迎大家扫下面的二维码关注微信公众号号chestershare，微信公众号名称：chester技术分享

昵称： chester·chen
园龄： 8年5个月
粉丝： 209
关注： 15

合集

随笔分类

随笔档案

相册

back(17)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:.NET最佳实践：避免同步读取HttpRequest
异步最大的优势就是不阻塞,提高吞吐量
--Broadm
2. Re:.NET最佳实践：避免滥用Task.Run
正常这个情况下是需要给前面的 Task 带上 ConfigureAwait 参数的 // 进行某些操作 await Task.Delay(1000).ConfigureAwait(continueOn...
--lindexi
3. Re:.NET中泛型 + 依赖注入的实现与应用
这种工厂服务有个缺陷，作用域控制。内置工厂模式的服务可以看出来，工厂都是单例的，出来的对象则只能是单例或瞬态。如果对象是可释放的，对象的释放责任也会转嫁到用户代码，容器无法代管。EFCore上下文工厂...
--coredx
4. Re:.NET最佳实践：避免滥用Task.Run
@JeffLiang 可以试试用MediatR来实现...
--适龄请结婚
5. Re:.NET最佳实践：避免同步读取HttpRequest
异步不能提升响应速度
--jiulang

Hadoop（一）Hadoop核心架构与安装

目录

Hadoop是什么
HDFS
MapReduce
Yarn
安装Hadoop
- 1.安装Jdk
- 2.安装伪分布式Hadoop

正文

Hadoop是什么

大白话，Hadoop是个存储数据，计算数据的分布式框架。核心组件是HDFS、MapReduce、Yarn。

HDFS：分布式存储

MapReduce：分布式计算

Yarn：调度MapReduce

现在为止我们知道了HDFS、MapReduce、Yarn是干啥的，下面通过一张图再来看看他的整体架构。

HDFS

HDFS是Hadoop的存储系统，将庞大的数据存储在多台机器上，并通过数据副本冗余实现容错。HDFS两大核心组件是NameNode与DataNode。

NameNode：管理文件命名空间元数据；实现文件命名、打开关闭操作

SecondaryNameNode：帮助NameNode实现log与数据快照的合并

DataNode：根据客户请求实现文件的读写

MapReduce

MapReduce是基于Java开发的分布式计算。包含重要的两部分，Map和Reduce。

Map：将数据转成键值对

Reduce：将Map的输出数据聚合减少

Yarn

通过对集群资源的监控，调度MapReduce的任务。核心组件有ResourceManager、NodeManager、ApplicationMaster 和 Container。

ResourceManager：处理客户端请求；监控NodeManager与ApplicationMaster；调度资源。

NodeManager：管理节点资源；与ResourceManager ApplicationMaster交互。

ApplicationMaster：为程序申请资源并将资源分配给任务；任务监控。

安装Hadoop

1.安装Jdk

下载https://www.oracle.com/java/technologies/downloads/

解压

tar -zxvf jdk-8u331-linux-x64.tar.gz

加入环境变量

复制代码

vi /etc/profile

#加入以下内容
JAVA_HOME=/usr/local/java18/jdk1.8.0_331
JRE_HOME=$JAVA_HOME/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH


//生效
source  /etc/profile

复制代码

验证java

2.安装伪分布式Hadoop

下载https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz

解压

tar xzf hadoop-3.2.3.tar.gz

配置本机ssh

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

配置Hadoop环境变量

cat etc/hadoop/hadoop-env.sh


export JAVA_HOME=/usr/local/java/jdk1.8

配置hdfs地址

cat etc/hadoop/core-site.xml

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>

配置hafs分片数

cat etc/hadoop/hdfs-site.xml

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

/etc/profile新增hadoop环境变量

复制代码

export HADOOP_HOME=/usr/local/hadoop/hadoop-3.2.3
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar


//生效
source /etc/profile

复制代码

配置mapreduce

复制代码

vi etc/hadoop/mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

复制代码

配置yarn

复制代码

vi etc/hadoop/yarn-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

复制代码

配置相关user

复制代码

//将sbin/start-dfs.sh，sbin/stop-dfs.sh两个文件顶部添加以下参数

HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root

//将sbin/start-yarn.sh，sbin/stop-yarn.sh顶部也需添加以下

YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

复制代码

初始化hdfs

bin/hdfs namenode -format

启动yarn

sbin/start-yarn.sh

通过jps查看启动的进程

启动hdfs

sbin/start-dfs.sh

通过jps查看进程

访问hadoopui验证安装是否成功

http://192.168.43.50:9870/dfshealth.html#tab-overview

访问集群ui

http://192.168.43.50:8088/cluster/cluster

posted on 2022-04-29 20:08 chester·chen 阅读(756) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· Hadoop（二）Hdfs基本操作

· Hadoop（三）通过C#/python实现Hadoop MapReduce

· Hadoop简介和架构

· hadoop知识点总结

· Hadoop组成

阅读排行：
· 无需6万激活码！GitHub神秘组织3小时极速复刻Manus，手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· Manus爆火，是硬核还是营销？
· 一文读懂知识蒸馏
· 终于写完轮子一部分：tcp代理了，记录一下

历史上的今天：
2019-04-29 python 元类