|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flume.V01|——|Flume.v01|Flume架构.v01|

一、Flume概述
### --- [数据采集工具-Flume]

~~~     [Flume简介]
~~~     [Flume拓扑结构]
~~~     [Flume体系架构]
~~~     [Flume内部原理]        
### --- 概述(什么是、体系结构、拓扑结构、内部原理)
### --- 安装配置
### --- 应用(基础、高级)

~~~     无论数据来自什么企业,或是多大量级,通过部署Flume,
~~~     可以确保数据都安全、及时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。
二、 Flume的定义
### --- Flume的定义

~~~     Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。
~~~     Flume支持在日志系统中定制各类数据发送方,用于采集数据;
~~~     Flume提供对数据进行简单处理,并写到各种数据接收方的能力。
三、简单的说,Flume是实时采集日志的数据采集引擎。
### --- Flume有3个重要组件:Source、Channel、Sink

~~~     # 特点:
~~~     分布式:flume分布式集群部署,扩展性好
~~~     可靠性好: 当节点出现故障时,日志能够被传送到其他节点上而不会丢失
~~~     易用性:flume配置使用较繁琐,对使用人员专业技术要求高
~~~     实时采集:flume采集流模式进行数据实时采集
~~~     适用场景:适用于日志文件实时采集。
### --- 其他数据采集工具还有:dataX、kettle、Logstash、Scribe、sqoop。

~~~     dataX是阿里开源软件异构数据源离线同步工具。
~~~     实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、
~~~     FTP等各种异构数据源之间稳定高效的数据同步功能。
~~~     # 特点:
~~~     易用性:没有界面,以执行脚本方式运行,对使用人员技术要求较高
~~~     性能:数据抽取性能高
~~~     部署:可独立部署
~~~     适用场景:在异构数据库/文件系统之间高速交换数据
### --- kettle开源ETL工具。

~~~     支持数据库、FTP、文件、rest接口、hdfs、hive等平台的据进行抽取、转换、传输等操作,
~~~     Java编写跨平台,C/S架构,不支持浏览器模式。
~~~     # 特点:
~~~     易用性:有可视化设计器进行可视化操作,使用简单
~~~     功能强大:不仅能进行数据传输,能同时进行数据清洗转换等操作
~~~     支持多种源:支持各种数据库、FTP、文件、rest接口、hdfs、Hive等源
~~~     部署方便:独立部署,不依赖第三方产品
~~~     适用场景:数据量及增量不大,业务规则变化较快,要求可视化操作,对技术人员的技术门槛要求低。
### --- Logstash。

~~~     应用程序日志、事件的传输、处理、管理和搜索的平台。
~~~     可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计。
~~~     Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到
~~~     一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。

 
 
 
 
 
 
 
 
 

Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
                                                                                                                                                   ——W.S.Landor

 

posted on   yanqi_vip  阅读(22)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示