hadoop 生态环境
HDFS角色及概念
hadoop体系中数据存储管理的基础,是一个高度蓉错的系统,用于在低成本的通用硬件上运行
角色和概念
— Client
— NameNode
— Secondarynode
— Datanode
NameNode
— Master节点,管理HDFS的(名称空间和数据块映射信息)就是fsimag,(配置副本策略)和Els差不多,处理所有客户端请求
Secondary NameNode (简称小秘)
— 定期合并fsimage和fsedits补丁,推送给NameNode
— 紧急情况下,可辅助恢复NameNode
但Secondary NameNode并非NameNode的热备
DataNode
— 数据存储节点,存储实际数据
— 汇报存储信息给NameNode
Client (客户端,执行顺序)
— 切分文件 (1)
— 访问HdFS
— 与NameNode交互,获取文件位置信息(2)
— 与DataNode交互,读取和写入数据 (3)
Block(存储块)
— 每块128MB大小 (4)
— 每块可以多个副本
如图:
Client 切分文件 > NameNode > DataNode 每块存储128MB > 记录本 fsimgs(名称空间数据块映射信息)Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode
Client 切分文件如3块数据给NameNode,NameNode,返回DataNode地址给Client存储,NameNode记录在fsimage上
取数据直接告诉Client取对应路径的数据
Client 更新数据修改在fsedits上Secondary NameNode 定期合并fsimage和fsedits补丁推送给NameNode
Yarn结构
Yarn角色及概念
Yarn是Hadoop的一个通用的资源管理系统
Yarn角色
— Resourcemanager
— Nodemanager
— ApplicationMaster
— Container
— Client
ResourceMangager
— 处理客户端请求
— 启动/监控ApplicationMaster
— 监控NodeManager
— 资源分配与监控
NodeManager
— 单个节点上的资源管理
— 处理来自ResourceManager的命令
— 处理来自ApplicationMaster的命命令
Container
— 对任务运行环境的抽象,封装了CPU,内存等
— 多维资源以及环境变量,启动命令等任务运行相关的资源信息资源分配与调度
ApplicationMaster
— 数据切分
— 为应用组程序申请资源,并分配给内部任务
— 任务监控与容错
Client
— 用户与Yarn交互的客户端程序
— 提交应用程序,监控应用程序状态,杀死应用程序等
Yarn的核心思想
将jobTracker和TaskTacker进行分离,它由下面几大结构组件
— ResourceManager一个全局的资源管理器
— NodeManager每个节点(RM)代理
— ApplicationMaster表示每个应用
— 每一个ApplicationMaster有多个Container在NodeManager上运行
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律