Hadoop理论知识
1、Hadoop是什么?
Hadoop是一个由Apache基金会所研发的分布式系统基础架构。主要解决海量数据存储和海量数据的分析计算问题。
2、Hadoop的特点?
(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务的处理速度。
(4)高容错性:能够自动将失败的任务重新分配。
3、Hadoop的组成?
Hadoop 1.x时代:MapReduce(计算+资源调度)+ HDFS(数据存储)+Common(辅助工具)
Hadoop 2.x时代以后:MapReduce(计算)+ Yarn(资源调度)+ HDFS(数据存储)+Common(辅助工具)
4、MapReduce架构概述?
MapReduce将计算过程分为两个阶段:Map和Reduce
Map阶段:并行处理输入数据
Reduce阶段:对Map结果进行汇总
5、HDFS架构概述?
HDFS(Hadoop Distributed File System)是一个分布式文件系统,主要由三部分组成: NameNode 和 DataNode 以及 SecondaryNamenode。
NameNode:负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
DataNode:负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本,默认为3个。
Secondary NameNode:用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。