概述

1、Hadoop是什么

1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2)主要解决,海量数据的存储和海量数据的分析计算问题。

3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

2、Hadoop 三大发行版本

  • Hadoop 三大发行版本:Apache、Cloudera、Hortonworks
  1. Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
  2. Cloudera 内部集成了很多大数据框架,对应产品 CDH。2008
  3. Hortonworks 文档较好,对应产品 HDP。2011
  • Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。

3、Hadoop 优势

  1. 高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
  2. 高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。(双十一,业务增加,需要增加服务器,hadoop有很好的扩展性)
  3. 高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
  4. 高容错性:能够自动将失败的任务重新分配。

4、Hadoop组成

4.1 Hadoop1.x、2.x、3.x区别
4.2 HDFS概述
  1. NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表块所在的DataNode等。
  2. DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
4.3 YARN概述
  • 为什么要使用容器

    1. 使用完可以自动释放,将资源回归给NM
    2. 针对不同的任务开启定制化的容器,可在一个几点运行多个任务
4.4 MapReduce
posted @ 2023-11-15 23:30  坤坤无敌  阅读(6)  评论(0编辑  收藏  举报