Hadoop概述
1. 什么是Hadoop
A. 定义
Hadoop是一个由Apache基金会所开发的分布式基础架构
B. 两个作用
a. 海量数据的存储
b. 海量数据的计算
C. 其它
广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
2. Hadoop的发展历史
A. 创始人
Doug Cutting
B. 思想来源
谷歌三篇论文
a. GFS==> HDFS
b. Map-Reduce ==> MR
c. BigTable ==> HBase
3. Hadoop三大发行版本
A. 三大发行版本
a. Apache ==> 基础版
b. Cloudera ==> CDH
c. Hortonworks ==> HDP
d. Hortonworks被Cloudera收购 ==> CDP
4. Hadoop优势
A. 4高
a. 高可靠性
底层维护了多个数据副本
b. 高扩展性
在集群间分配任务数据,可方便扩展数以千计的节点
c. 高效性
并行工作
d. 高容错性
能够自动将失败的任务重新分配
5. Hadoop组成
A. Hadoop 1.x 2.x 3.x区别
a. Hadoop 1.x Common(辅助工具)==> HDFS(数据存储)==> MapReduce(计算+资源调度)
b. Hadoop 2.x Common(辅助工具)==> HDFS(数据存储)==> Yarn(资源调度)==>MapReduce(计算)
c. Hadoop 3.x 在组成上与Hadoop 2.x 没有变化
d. Hadoop 1.x 时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
Hadoop 2.x 时代,增加了Yarn。Yarn只负责资源的调度,MapReduce子负责资源的调度