Hadoop简述

一:什么是Hadoop?

  (1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构

  (2)主要解决海量数据的存储和计算问题

  (3)广义来讲,Hadoop指的是Hadoop生态圈

 

二:Hadoop三大发行版本

  (1)Apache:最基础原始的版本,适合入门学习

  (2)Cloudera:在大型互联网企业中用的最多

  (3)Hortonworks:文档好

 

三:Hadoop的优势

  (1)高可靠性:Hadoop底层维护有多个数据副本,所以即使Hadoop上某台计算机(节点)的数据出了问题,也不会导致数据丢失

  (2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点

  (3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度

          海量数据的计算是非常消耗性能的,一台计算机的内存是不够用的。Hadoop可以让多个节点的内存一起来计算,这样就能更快的计算。

  (4)高容错性:能够自动将失败的任务重新分配

 

四:Hadoop组成

  Hadoop组成在1版本和2版本是不同的,现在使用的是2.0以后的版本

  Hadoop2.x将MapReduce的资源调度功能提取成一个新的模块放在Yarn里,这样·可以·减少耦合度。

  

 

posted @ 2020-03-10 09:57  拔丝小红薯  阅读(224)  评论(0编辑  收藏  举报