Hadoop⼊⻔

大数据的概念

1.什么样的数据才可以称之为是“大数据”

1.海量：数据量一定要大

2.高增长率：一定的时间内数据快速增长

3.多样化：数据的种类千奇百怪

2.研究大数据的目的

1.海量数据的储存

2.海量数据的分析计算

3.重要的度量单位

bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB

Hadoop

狭义上来说Hadoop相当于一款数据库软件

广义上来说Hadoop是一个大数据生态圈

2006年正式的诞生标志着大数据时代的到来图标是一个大象

Hadoop主要版本

Apache、Cloudera、Hortonworks

Apache版本　　2006年

最原始（最基础）的版本，对于入门学习最好

Cloudera　　2008年

内部集成很多大数据框架，对应产品CDH

Hortonworks　　2011年

文档较好，对应产品HDP

PS:Hortonworks已经被Cloudera公司收购推出新品牌CDP

Hadoop版本号的区别

Hadoop1.X

　　　　MapReduce 　　计算与资源调度

　　　　HDFS 　　数据存储

　　　　Common 　　辅助工具

Hadoop2.X与3.X

　　　　MapReduce 　　计算

　　　　Yarn 　　资源调度

　　　　HDFS 　　数据存储

　　　　Common 　　辅助工具

HDFS框架的组成

NameNode(nn):存储文件的元数据　　相当于目录

DataNode(dn):存储文件的真实数据　　当对于文本内容

Secondary NameNode(2nn):辅助NameNode工作　　相当于备用设施

Yarn架构组成

Resource Manager:类似于大老板

Node Manager:类似于各部门经理

Application Master:类似于部门中真正干活的员工

Container:类似于每个部门拥有的各项资源

MapReduce架构组成

Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成

Reduce就是将每个节点完成的小人物汇总到一起

技术生态圈

数据来源层

针对结构化数据(关系型数据库)采用sqoop进行数据同步

针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

posted @ 2021-10-27 21:44 ふじわらたくみ阅读(71) 评论(0) 收藏举报

刷新页面返回顶部

ふじわらたくみ

Hadoop⼊⻔

大数据的概念

1.什么样的数据才可以称之为是“大数据”

2.研究大数据的目的

3.重要的度量单位

Hadoop

狭义上来说Hadoop相当于一款数据库软件

广义上来说Hadoop是一个大数据生态圈

2006年正式的诞生 标志着大数据时代的到来 图标是一个大象

Hadoop主要版本

Apache、Cloudera、Hortonworks

Apache版本 2006年

Cloudera 2008年

Hortonworks 2011年

文档较好，对应产品HDP

Hadoop版本号的区别

Hadoop1.X

MapReduce 计算与资源调度

HDFS 数据存储

Common 辅助工具

Hadoop2.X与3.X

MapReduce 计算

Yarn 资源调度

HDFS 数据存储

Common 辅助工具

HDFS框架的组成

NameNode(nn):存储文件的元数据 相当于目录

DataNode(dn):存储文件的真实数据 当对于文本内容

Secondary NameNode(2nn):辅助NameNode工作 相当于备用设施

Yarn架构组成

Resource Manager:类似于大老板

Node Manager:类似于各部门经理

Application Master:类似于部门中真正干活的员工

Container:类似于每个部门拥有的各项资源

MapReduce架构组成

Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成

Reduce就是将每个节点完成的小人物汇总到一起

技术生态圈

数据来源层

针对结构化数据(关系型数据库)采用sqoop进行数据同步

针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步

公告

2006年正式的诞生标志着大数据时代的到来图标是一个大象

Apache版本　　2006年

Cloudera　　2008年

Hortonworks　　2011年

　　　　MapReduce 　　计算与资源调度

　　　　HDFS 　　数据存储

　　　　Common 　　辅助工具

　　　　MapReduce 　　计算

　　　　Yarn 　　资源调度

　　　　HDFS 　　数据存储

　　　　Common 　　辅助工具

NameNode(nn):存储文件的元数据　　相当于目录

DataNode(dn):存储文件的真实数据　　当对于文本内容

Secondary NameNode(2nn):辅助NameNode工作　　相当于备用设施