hadoop中各个组件区别

这个文章主要是理清hadoop中不同组件的区别以及联系

hadoop分为4个大部分

hadoop的公共库
hdfs 文件存储
yarn 资源调度
mapreduce 计算框架

hdfs中包括的主要组件：

Namenode
2nn
Datenode

Namenode存储的是整个文件系统的元信息，它也有调度的作用，但是它调度的是datenode，分管的是存储方面的调度。
写入的过程，首先在hdfs上创建一个文件，然后创建一个指向文件的输出流streamer(FSDataOutputStream)，之后写入文件到chunk(FSOutputSummer)，写满就进行校验，实际写入是通过（DFSOutputStream），每写满一个就生成一个packet，之后packet就会通过wtrite(DataStreamer)写入dataQueue队列中，然后唤醒DataStreamer写入namenode分配的block中，在写入成功返回前会将数据加入ackQueue备份，如果返回成功了才会删除(ResponseProcessor)。
如果出错，就会将ackQueue的数据取出，并且尝试恢复数据块，如果数据块恢复失败，就移除这个数据块。
https://www.cnblogs.com/ggjucheng/archive/2013/02/19/2917020.html

Datenode是实际的写入

yarn中包括

Resuorcemanager，主要是进行计算资源的调度，包括两个方面：
Scheduler 和ApplicationsManager;
Scheduler：负责资源调度，调度策略可插拔（内置实现CapacityScheduler / FairScheduler ）不提供对application 运行的监控。
ApplicationsManager：负责响应任务提交请求，协商applicationMaster 运行的container，重启失败的applicationMaster。
在每个节点都会有一个Nodemanager监控，主要作用就是Appmaster和Resuorcemanager进行通信。

开始一个任务：