Hadoop——生态体系
序言
Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。
Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。
举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。
举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。
核心组件
HDFS:分布式文件系统(Hadoop Distributed File System)。
MapReduce:分布式计算。
YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。
Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。
Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。
Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop。
Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。
Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。
主要学习方向
HDFS概念
MapReduce
MapReduce 案例
Hive架构
Hive DDL
Hive DML
Hive查询访问
Hive安全管理与压缩
Hbase 架构与操作
Hbase 压缩与存储
Flume
Sqoop
zookeeper
ElasticSearch
Cloudera Manager
Hue
impala
oozie