Hadoop——生态体系

序言

Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。

Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。

举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。

举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。

核心组件

HDFS:分布式文件系统(Hadoop Distributed File System)。

MapReduce:分布式计算。

YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。

Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。

Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。

Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop

Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。

Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。

主要学习方向

HDFS概念

MapReduce

MapReduce 案例

Hive架构

Hive DDL

Hive DML

Hive查询访问

Hive安全管理与压缩

Hbase 架构与操作

Hbase 压缩与存储

Flume

Sqoop

zookeeper

ElasticSearch

Cloudera Manager

Hue

impala

oozie

资料

https://www.cnblogs.com/edisonchou/category/542546.html

posted @ 2019-12-04 22:21  ~沐风  阅读(521)  评论(0编辑  收藏  举报