Hadoop概述

1. 什么是Hadoop
  A. 定义
    Hadoop是一个由Apache基金会所开发的分布式基础架构
  B. 两个作用
    a. 海量数据的存储
    b. 海量数据的计算
  C. 其它
    广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈

 

2. Hadoop的发展历史
  A. 创始人
    Doug Cutting
  B. 思想来源
    谷歌三篇论文
    a. GFS==> HDFS
    b. Map-Reduce ==> MR
    c. BigTable ==> HBase


3. Hadoop三大发行版本
  A. 三大发行版本
    a. Apache ==> 基础版
    b. Cloudera ==> CDH
    c. Hortonworks ==> HDP
    d. Hortonworks被Cloudera收购 ==> CDP

 

4. Hadoop优势
  A. 4高
    a. 高可靠性
      底层维护了多个数据副本
    b. 高扩展性
      在集群间分配任务数据,可方便扩展数以千计的节点
    c. 高效性
      并行工作
    d. 高容错性
      能够自动将失败的任务重新分配

5. Hadoop组成
  A. Hadoop 1.x 2.x 3.x区别
    a. Hadoop 1.x Common(辅助工具)==> HDFS(数据存储)==> MapReduce(计算+资源调度)
    b. Hadoop 2.x Common(辅助工具)==> HDFS(数据存储)==> Yarn(资源调度)==>MapReduce(计算)
    c. Hadoop 3.x 在组成上与Hadoop 2.x 没有变化
    d. Hadoop 1.x 时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
    Hadoop 2.x 时代,增加了Yarn。Yarn只负责资源的调度,MapReduce子负责资源的调度

posted @ 2021-06-02 10:50  shangzq  阅读(108)  评论(0编辑  收藏  举报