Hadoop基础之Hadoop概述

Hadoop基础之Hadoop概述

Hadoop基础之Hadoop概述

什么是Hadoop

Hadoop是一个可靠的、可扩展的，可以分布式计算的开源软件(计算框架)
使用简单模型在集群中分布式处理海量数据
集群：从硬件的角度分析
分布式：从软件的角度分析
节点的数量可以从单一一个服务到成千上万个服务，每一个节点都独自的存储和计算
相对于在硬件层次上做优化，在应用程序层次做优化更好，与硬件无关，只与集群中任务的分配有关
任何一个节点都有可能出错(宕机)，如果一个节点出问题，集群中还有其他节点继续完成工作
从不同角度分析

从具体内容的角度，Hadoop就是一个分布式的计算框架
从大数据的整体来说，特制Hadoop生态圈

hadoop(大数据)主要解决的问题

海量的数据怎么存
海量的数据怎么算

Hadoop四大组件

HDFS

Hadoop Distributed File System
分布式文件存储
解决海量数据怎么存储的组件
三个角色

NameNode -- 主节点，全局唯一，存储的是元数据(描述数据的数据)
DateNode -- 从节点，全局可以有任意个，存储真实数据
SecondaryNameNode -- NameNode的备份节点，全局只有一个，一般不与NameNode在一起

MapReduce

解决的就是海量数据怎么计算的问题

Yarn

资源调度器

Common

与Hadoop生态圈的其他组件整合时需要的内容

Hadoop名字的由来

Hadoop：作者的女儿的黄色玩具小象(Hadoop)
HDFS：来源于Google的论文GFS
MapReduce：来源于Google论文Map-Reduce
HBase：来源于Google论文BigTable

Hadoop版本

普通版

安装比较简单，提供了最基础的功能，适合初学者

商业版

添加额外的一些功能，比较专业，但是可能会收费

Hadoop作者和发展历程

百度

posted on 2020-10-25 15:20 珍珠奶茶不加糖阅读(113) 评论(0) 编辑收藏举报

刷新页面返回顶部