Hadoop简介
一、特点
1、高可靠性
2、高扩展性
3、高效性
4、高容错性
二、发行版本
1、Apache版本
2、CDH版本
3、Hortonworks版本
三、Hadoop版本区别
Hadoop 1.X
HDFS 数据存储
MapReduce 计算 + 资源调度
Hadoop2.X
HDFS 数据存储
Yarn 资源调度
MapReduce 计算
四、HDFS组成
1、NameNode(nn):绝世武功的目录
2、DataNode(dn):绝世武功的所有书籍
3、Secondary NameNode(2nn):辅助NameNode
五、YARN组成
1、ResourceManager (RM)
a、处理客户端请求
b、监控NodeManager
c、启动或监控ApplicationMaster,ApplicationMaster ->(Job)
d、资源分配和调度
2、NoteManage
a、管理该节点的资源
b、处理来自ResourceManager的命令
c、处理来自ApplicationMaster的命令
3、ApplicationMaster
a、负责数据的切分
b、为应用程序申请资源并分配给内部的任务
c、任务的监督与容错
4、Container
是YARN中的资源抽象,它封装了某个节点上的多个维度资源,如内存、CPU、磁盘网络等
六、MapReduce
1、Map
并行处理输入数据
2、Reduce
对Mao的结果进行汇总
七、大数据生态体系
最重要的是Hadoop、Spark、Hive、Hbase