随笔- 223 文章- 0 评论- 7 阅读- 42594

Hadoop入门之组成概述

Hadoop为分布式系统基础结构

多个服务器共同解决一个问题，进行海量数据的储存和海量数据的分析计算

HDFS架构

NameNode:储存文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等

DataNode:在本地文件系统储存文件块数据，以及块数据的校验和

Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份

这里NameNode好比具体数据的目录，记录每个数据储存在哪里以及信息，DataNode好比数据的仓库，储存具体的数据，2nn为秘书，作为NameNode备份，防止数据丢失

类比，DataNode好比一个个盒子储存具体数据，NameNode好比这些盒子的名单，对应每个盒子以及盒子里面储存了什么,2nn为NameNode的备份

YARN架构

yarn是资源协调者，作为hadoop的资源管理器

ResourceManger:主管理者，管理所有资源，内存和cpu为所有NodeManger的总和

NodeManger:单个服务结点的服务器资源管理器

ApplicationMaster:单个任务运行的管理

Container:容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源例如内存，cpu等

说明:客户端可以有多个，集群上可以运行多个ApplicationMaster，每个NodeManger上可以有多个Container

MapRedurce架构

主要作用是海量检索数据

把任务分布给多个hadoop结点服务器，Map阶段

这些结点汇总结果，Reduce阶段

HDFS、YARN和MapReduce的关系

当一个client需要进行查询时，会向RescourceManger提交一个任务，RescourceManger将任务给NodeManger，NodeManger开启一个容器Container里面放一个AppMstr，并且回复RescourceManger告之需要多少的资源，然后找到有对应资源的结点并且开启MapTask，分布任务，然后每个MapTask再汇总返回给用户

posted @ 2023-06-27 17:39 突破铁皮阅读(12) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· hadoop HA高可用集群搭建

· Spark基本介绍

· Hadoop组成架构

· Hadoop入门

· Hadoop组成

阅读排行：
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型，支持深度思考和联网搜索！
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· ollama系列01：轻松3步本地部署deepseek，普通电脑可用
· 25岁的心里话
· 按钮权限的设计及实现

公告

昵称：突破铁皮
园龄： 2年8个月
粉丝： 7
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

liyiyang

Hadoop入门之组成概述

Hadoop为分布式系统基础结构

HDFS架构

YARN架构

MapRedurce架构

HDFS、YARN和MapReduce的关系

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论