hadoop 生态环境

 

HDFS角色及概念

hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行

 

 

角色和概念

  — Client

  — NameNode

  — Secondarynode 

  — Datanode 

NameNode

  — Master节点,管理HDFS的(名称空间和数据块映射信息)就是fsimag,(配置副本策略)和Els差不多,处理所有客户端请求

Secondary NameNode (简称小秘)

  — 定期合并fsimage和fsedits补丁,推送给NameNode

  —  紧急情况下,可辅助恢复NameNode

但Secondary NameNode并非NameNode的热备

DataNode

  — 数据存储节点,存储实际数据

  — 汇报存储信息给NameNode

Client (客户端,执行顺序)

  —  切分文件 (1)

  —  访问HdFS

  —  与NameNode交互,获取文件位置信息(2)

  — 与DataNode交互,读取和写入数据 (3)

 Block(存储块)

  —  每块128MB大小 (4)

  —  每块可以多个副本

 

如图:

Client 切分文件  >  NameNode  >  DataNode 每块存储128MB > 记录本 fsimgs(名称空间数据块映射信息)Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode

Client 切分文件如3块数据给NameNode,NameNode,返回DataNode地址给Client存储,NameNode记录在fsimage上

取数据直接告诉Client取对应路径的数据

Client 更新数据修改在fsedits上Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode

 

Yarn结构

 

Yarn角色及概念

  Yarn是Hadoop的一个通用的资源管理系统

 

  Yarn角色   

   — Resourcemanager

   — Nodemanager

  

   — ApplicationMaster

   — Container

   — Client 

 

 ResourceMangager

  — 处理客户端请求

  — 启动/监控ApplicationMaster

  — 监控NodeManager

  — 资源分配与监控

 NodeManager

  — 单个节点上的资源管理

  — 处理来自ResourceManager的命令

  — 处理来自ApplicationMaster的命命令

 Container

  — 对任务运行环境的抽象,封装了CPU,内存等

  — 多维资源以及环境变量,启动命令等任务运行相关的资源信息资源分配与调度

 ApplicationMaster

  — 数据切分

  — 为应用组程序申请资源,并分配给内部任务

  — 任务监控与容错

 Client

  — 用户与Yarn交互的客户端程序

  — 提交应用程序,监控应用程序状态,杀死应用程序等

 

Yarn的核心思想

将jobTracker和TaskTacker进行分离,它由下面几大结构组件

  — ResourceManager一个全局的资源管理器

  — NodeManager每个节点(RM)代理

  — ApplicationMaster表示每个应用

  — 每一个ApplicationMaster有多个Container在NodeManager上运行

 

posted @   tom-service  阅读(38)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示