大数据-hadoop-入门hadoop简介

一、hadoop是一个分布式系统基础架构。分布式解决海量数据的存储和分析计算。大部分框架都依赖于hadoop。

 

 三篇论文需要了解。

二、hadoop的优势

1、高可靠性:hadoop底层维护多个数据副本,所以即使hadoop某个计算元素或存储出现故障们都不会导致数据的丢失。

2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。都是动态操作

3、高效性:并行工作,加快任务处理速度。

4、高容错性:自动将失败的任务重新分配。

三、hadoop的组成

hadoop 1.x和hadoop2.x的区别:

         

 

 

 2.x更加模块化。1.x耦合性更大。

HDFS包括:

1、namenode:存储文件的元数据,如文件名、文件目录、文件属性,以及每个文件的块列表和块所在的datanode。就相当于是那些数据的存储目录。

2、datanode:,就相当于是实实在在的数据。

 

 3、辅助namenode工作。

 四、yarn架构

 

 

 

 

 

 

 

 五、mapreduce架构

map并行处理输入的数据,负责分   reduce对map的结果进行汇总,负责合。

posted on 2021-10-17 21:03  方木Fengl  阅读(34)  评论(0编辑  收藏  举报

导航