Hadoop⼊⻔

大数据的概念

1.什么样的数据才可以称之为是“大数据”

1.海量:数据量一定要大

2.高增长率:一定的时间内数据快速增长

3.多样化:数据的种类千奇百怪

 

2.研究大数据的目的

1.海量数据的储存

2.海量数据的分析计算

 

3.重要的度量单位

bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

 

 

 

 

Hadoop

狭义上来说Hadoop相当于一款数据库软件

广义上来说Hadoop是一个大数据生态圈

 

2006年正式的诞生 标志着大数据时代的到来 图标是一个大象

 

 

 

 

Hadoop主要版本

Apache、Cloudera、Hortonworks

 

Apache版本  2006年

最原始(最基础)的版本,对于入门学习最好

 

 

 

Cloudera  2008年

内部集成很多大数据框架,对应产品CDH

 

 

 

Hortonworks  2011年

文档较好,对应产品HDP

 

 

 

 

PS:Hortonworks已经被Cloudera公司收购推出新品牌CDP

 

Hadoop版本号的区别

Hadoop1.X

    MapReduce   计算与资源调度

    HDFS   数据存储

    Common   辅助工具

Hadoop2.X与3.X

    MapReduce   计算

    Yarn   资源调度

    HDFS   数据存储

    Common   辅助工具

 

HDFS框架的组成

NameNode(nn):存储文件的元数据   相当于目录

DataNode(dn):存储文件的真实数据   当对于文本内容

Secondary NameNode(2nn):辅助NameNode工作   相当于备用设施

 

 

Yarn架构组成

Resource Manager:类似于大老板

Node Manager:类似于各部门经理

Application Master:类似于部门中真正干活的员工

Container:类似于每个部门拥有的各项资源

 

 

 

 

MapReduce架构组成

Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成

Reduce就是将每个节点完成的小人物汇总到一起

 

 

技术生态圈

数据来源层

针对结构化数据(关系型数据库)采用sqoop进行数据同步

针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

 

posted @ 2021-10-27 21:44  ふじわらたくみ  阅读(37)  评论(0编辑  收藏  举报