Apache Hadoop的重要组成部分

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源调度框架)+Common框架

1.Hadoop HDFS:(Hadoop Distribute File System) 一个高可靠、高吞吐量的分布式文件系统比如:100T数据存储,

  比如:100T数据存储

  “分而治之”

  分:拆分-》数据切割,100T数据拆分为10G一个数据块有一个电脑节点存储这个数据块。

 

  数据切割、制作副本、分散储存

 

 

 

 图中涉及到几个角色

NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生产时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。

SecondaryNameNode(2nn):辅助NameNode更好的工作,用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据快照

DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验

注意;NN,2NN,DN这些既是角色名称,进程名称,代指电脑节点名称!!

 

 

Hadoop Namenode节点只能格式化一次,多次格式会导致NameNode和DataNode版本号对不上,导致集群启动无法成功

 

posted @ 2020-07-01 10:56  若冲  阅读(39)  评论(0编辑  收藏  举报