【联系】Hadoop 和 HDFS 的关系?flume和kafka有什么区别及联系?

Hadoop

Hadoop生态圈,是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。

把它比作一个厨房所有需要的各种工具。

它的两大核心式HDFS和YARN。主要包括分布式文件管理系统HDFS、资源管理框架YARN,分布式计算框架MapReduce,分布式协作服务Zookeeper,实时分布式数据库Hbase,数据仓库Hive,数据流处理Pig,数据挖掘Mahout,日志收集工具Flume,数据库ETL工具Sqoop,安装、部署、配置和管理工具Ambari

HDFS

HDFS(Hadoop Distributed File System)是Hadoop兼容最好的标准级文件系统,对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件。

Hadoop 和 HDFS两者关系

Hadoop实现了HDFS功能部件。

简易理解为,Hadoop是一个框架,HDFS是Hadoop中的一个部件。

因为Hadoop是一个综合性的文件系统抽象,所以HDFS不是Hadoop必需的。

=============================================================================================

flume和kafka有什么区别及联系

flume是日志采集工具,线上数据一般主要是落地文件或者通过管道传输给另外一个系统,需要flume系统去做这样的传输。

flume设计模式是source->channel->sink

 

kafka为中间件系统,可以理解为cache缓冲系统,甚至可以理解为一个广义的数据库系统,可以存放一定时间的数据。

 

不同系统之间融合往往数据生产或消费的速率不通过,这时候加上kafka这样的缓冲中间件后,这样可以解决数据生产快且具有突发性。

业界中比较典型的用法如下:

 

线上数据  - > flume - >kafka - > hdfs - > MR离线计算 

 

线上数据  - > flume - >kafka - > storm

 

 

 

posted @   不设限不局限  阅读(653)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示