Hadoop基础之Hadoop概述
Hadoop基础之Hadoop概述
什么是Hadoop
- Hadoop是一个可靠的、可扩展的,可以分布式计算的开源软件(计算框架)
- 使用简单模型在集群中分布式处理海量数据
- 集群:从硬件的角度分析
- 分布式:从软件的角度分析
- 节点的数量可以从单一一个服务到成千上万个服务,每一个节点都独自的存储和计算
- 相对于在硬件层次上做优化,在应用程序层次做优化更好,与硬件无关,只与集群中任务的分配有关
- 任何一个节点都有可能出错(宕机),如果一个节点出问题,集群中还有其他节点继续完成工作
- 从不同角度分析
- 从具体内容的角度,Hadoop就是一个分布式的计算框架
- 从大数据的整体来说,特制Hadoop生态圈
hadoop(大数据)主要解决的问题
- 海量的数据怎么存
- 海量的数据怎么算
Hadoop四大组件
- HDFS
- Hadoop Distributed File System
- 分布式文件存储
- 解决海量数据怎么存储的组件
- 三个角色
- NameNode -- 主节点,全局唯一,存储的是元数据(描述数据的数据)
- DateNode -- 从节点,全局可以有任意个,存储真实数据
- SecondaryNameNode -- NameNode的备份节点,全局只有一个,一般不与NameNode在一起
- MapReduce
- 解决的就是海量数据怎么计算的问题
- Yarn
- 资源调度器
- Common
- 与Hadoop生态圈的其他组件整合时需要的内容
Hadoop名字的由来
- Hadoop:作者的女儿的黄色玩具小象(Hadoop)
- HDFS:来源于Google的论文GFS
- MapReduce:来源于Google论文Map-Reduce
- HBase:来源于Google论文BigTable
Hadoop版本
- 普通版
- 安装比较简单,提供了最基础的功能,适合初学者
- 商业版
- 添加额外的一些功能,比较专业,但是可能会收费
Hadoop作者和发展历程
如有问题,请发送邮件至buxiaqingcheng@163.com或者buxiaqingcheng@dingtalk.com