Hadoop⼊⻔
大数据的概念
1.什么样的数据才可以称之为是“大数据”
1.海量:数据量一定要大
2.高增长率:一定的时间内数据快速增长
3.多样化:数据的种类千奇百怪
2.研究大数据的目的
1.海量数据的储存
2.海量数据的分析计算
3.重要的度量单位
bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
Hadoop
狭义上来说Hadoop相当于一款数据库软件
广义上来说Hadoop是一个大数据生态圈
2006年正式的诞生 标志着大数据时代的到来 图标是一个大象
Hadoop主要版本
Apache、Cloudera、Hortonworks
Apache版本 2006年
最原始(最基础)的版本,对于入门学习最好
Cloudera 2008年
内部集成很多大数据框架,对应产品CDH
Hortonworks 2011年
文档较好,对应产品HDP
PS:Hortonworks已经被Cloudera公司收购推出新品牌CDP
Hadoop版本号的区别
Hadoop1.X
MapReduce 计算与资源调度
HDFS 数据存储
Common 辅助工具
Hadoop2.X与3.X
MapReduce 计算
Yarn 资源调度
HDFS 数据存储
Common 辅助工具
HDFS框架的组成
NameNode(nn):存储文件的元数据 相当于目录
DataNode(dn):存储文件的真实数据 当对于文本内容
Secondary NameNode(2nn):辅助NameNode工作 相当于备用设施
Resource Manager:类似于大老板
Node Manager:类似于各部门经理
Application Master:类似于部门中真正干活的员工
Container:类似于每个部门拥有的各项资源
Map就是将复杂的任务拆分成多个小任务分发给不同的节点完成
Reduce就是将每个节点完成的小人物汇总到一起
数据来源层
针对结构化数据(关系型数据库)采用sqoop进行数据同步
针对半结构化、非结构化数据(非关系型数据库)采用flume、kafka进行同步