Hadoop介绍

Hadoop 是什么

Hadoop是一个开源软件框架，用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储，巨大的处理能力以及处理几乎无限的并发任务或作业的能力。

Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。

Hadoop 创始人

2001年年底Lucene成为Apache基金会的一个子项目
对于海量数据的场景，Lucene面对与Google同样的困难，存储数据困难，检索速度慢。
学习和模仿Google解决这些问题的办法：微型版Nutch。
可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文)
2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
2006 年 3 月份，Map-Reduce和Nutch Distributed File System (NDFS) 分别被纳入到 Hadoop 项目中，Hadoop就此正式诞生，标志着大数据时代来临。
名字来源于Doug Cutting儿子的玩具大象

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks

目前 Hortonworks 与 Cloudera 合并

Hadoop 按位存储和处理数据的能力值得人们信赖

Hadoop 是在可用的计算机集簇间分配数据完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中

Hadoop 能够在节点之间动态地移动数据，以保证各个节点的动态平衡，因此其处理速度非常快。

任务执行失败能够自动重新分配，无需人工干预

HDFS 架构分为两大节点：Namenode，Datanode。HDFS 采用 Master/ Slave 架构对文件系统进行管理。

MapReduce将计算过程分为两个阶段：Map和Reduce

posted @ 2020-04-05 20:49 有我在阅读(716) 评论(0) 编辑收藏举报

刷新页面返回顶部