Hadoop——生态体系
序言
Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。
Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。
举例1:用户想要获取某个路径的数据,数据存放在很多的机器上,作为用户不用考虑在哪台机器上,HD-FS自动搞定。
举例2:如果一个100p的文件,希望过滤出含有Hadoop字符串的行。这种场景下,HDFS分布式存储,突破了服务器硬盘大小的限制,解决了单台机器无法存储大文件的问题,同时MapReduce分布式计算可以将大数据量的作业先分片计算,最后汇总输出。
核心组件
HDFS:分布式文件系统(Hadoop Distributed File System)。
MapReduce:分布式计算。
YARN:为 Hadoop 数据处理提供了通用的资源管理器和调度器。
Apache Hive:提供 HDFS 上数据的结构化定义,及数据的类 SQL 查询功能。
Apache HBase:它是一个分布式 NoSQL 数据存储,提供 HDFS 上超大规模数据集的随机访问。
Apache Flume:一个常用的数据采集工具,将基于事件的数据(如日志)转存至 Hadoop。
Apache Sqoop:用来在外部数据存储(如关系型数据库)与 Hadoop 之间进行数据移动。
Apache ZooKeeper:来保障 Hadoop 生态圈中各个项目间的协同工作。
主要学习方向
HDFS概念
MapReduce
MapReduce 案例
Hive架构
Hive DDL
Hive DML
Hive查询访问
Hive安全管理与压缩
Hbase 架构与操作
Hbase 压缩与存储
Flume
Sqoop
zookeeper
ElasticSearch
Cloudera Manager
Hue
impala
oozie
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!