hadoop大数据相关了解---第二篇

一、Hadoop应用现状:
1.数据来源:数据源
2.大数据层:((1)(2)(3)的最底层:基于HDFS分布式文件存储)
(1)进行高性分析:Hive、Pig、MR
(2)进行实时查询 :Soir、Redis、Hbase
(3)BI分析Mahout
3.访问层:数据分析 数据实时查询 数据挖掘

二、Hadoop版本
1.Hadoop1.0(0.20x、0.21x、0.22x)【在1.0版本里MapReduce负责计算处理以及资源调度】
2.Hadoop2.0(0.23x、2.x)【2.0版本里MapReduce只负责处理计算、而由YARN负责资源的调度、2.0的MapReduce是基于YARN的计算;当然YARN可以和其他计算框架进行计算、比如Spkae、Storm】
3.发行版与原生版:
(1)原生版:阿帕奇版
(2)发行版:CDH(最方便)、MapR(性能好)、星环(国产)

三、Hadoop项目结构
在这里插入图片描述
HDFS: 分布式文件系统、数据的存储
Common:为hadoop其他组件提供公共库、基础层次
YARN: 资源的调度、比如调度内存、cpu、带宽等等
MapReduce: 用于离线的批处理计算、基于磁盘的读写
Tez: 把很多的MapReduce作业进行分析优化、构建成一个有向无环图(相当于流程、去控制那些先做、那些后做、有些不要重复做)
Spark: 逻辑与MapReduce是一样的、用函数去做计算处理、基于内存的读写、性能强
Hive: 整个Hadoop生态圈中实现数据仓库的功能、存储数据、批量数据处理,支持SQL语句;Hive架构在MapReduce之上,编写的Hive语句会转换成大量的、一堆的MapReduce作业再去执行。
Pig: 实现流式数据处理、轻量级编程语言、提供类似SQL的PigLatin查询语言,轻量级分析。
Oozie:作业流调度系统、把一个完整的工作分成很多个工作环节不同应用程序去完成不同的工作
Zookeeper: 分布式协调服务,做分布式协调一致性。比如分布式锁、集群管理。Hbase集群中经常用到。
Hbase:列族数据库,面向列存储的数据库、支持随机读写和实时应用的大型数据库。
Flume:日志收集分析框架、专门做日志收集。比如阿里巴巴、美团的点击量之类的。
Sqoop: 用来完成数据导入导出,即关系型数据库(或者一些传统数据库)与Hadoop平台之间互导数据。
Ambari安装部署工具(Hadoop最上层):部署工具,智能化的去部署和管理一整套Hadoop的各个生态组件。

posted @ 2019-09-07 16:12  Tony学长  阅读(74)  评论(0编辑  收藏  举报