每日日报 20210926

1.5.1 HDFS 架构概述

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。

HDFS架构概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、

文件权限),以及每个文件的块列表和块所在的DataNode等。

2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

 

1.5.2 YARN 架构概述

Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它 是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。                                                           

      YARN从某种那个意义上来说应该算做是一个云操作系统,它负责集群的资源管理。在操作系统之上可以开发各类的应用程序,例如批处理MapReduce、流式作业Storm以及实时型服务Storm等。这些应用可以同时利用Hadoop集群的计算能力和丰富的数据存储模型, 共享同一个Hadoop 集群和驻留在集群上的数据。 此外,这些新的框架还可以利用YARN的资源管理器,提供新的应用管理器实现。

 

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段:Map 和 Reduce

1)Map 阶段并行处理输入数据

2)Reduce 阶段对 Map 结果进行汇总

ss.avi

yangge.avi

bobo.avi

ss1505_w

uma.avi

...

100T

任务需求:找出宋宋老师2015年5月份的教学视频

Map Reduce

hadoop10

posted @ 2021-09-26 09:38  涛浪浪i  阅读(536)  评论(0)    收藏  举报