|NO.Z.00038|——————————|BigDataEnd|——|Hadoop&Flume.V01|——|Flume.v01|Flume架构.v01|
一、Flume概述
### --- [数据采集工具-Flume]
~~~ [Flume简介]
~~~ [Flume拓扑结构]
~~~ [Flume体系架构]
~~~ [Flume内部原理]
### --- 概述(什么是、体系结构、拓扑结构、内部原理)
### --- 安装配置
### --- 应用(基础、高级)
~~~ 无论数据来自什么企业,或是多大量级,通过部署Flume,
~~~ 可以确保数据都安全、及时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。
二、 Flume的定义
### --- Flume的定义
~~~ Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。
~~~ Flume支持在日志系统中定制各类数据发送方,用于采集数据;
~~~ Flume提供对数据进行简单处理,并写到各种数据接收方的能力。
三、简单的说,Flume是实时采集日志的数据采集引擎。

### --- Flume有3个重要组件:Source、Channel、Sink
~~~ # 特点:
~~~ 分布式:flume分布式集群部署,扩展性好
~~~ 可靠性好: 当节点出现故障时,日志能够被传送到其他节点上而不会丢失
~~~ 易用性:flume配置使用较繁琐,对使用人员专业技术要求高
~~~ 实时采集:flume采集流模式进行数据实时采集
~~~ 适用场景:适用于日志文件实时采集。
### --- 其他数据采集工具还有:dataX、kettle、Logstash、Scribe、sqoop。
~~~ dataX是阿里开源软件异构数据源离线同步工具。
~~~ 实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、
~~~ FTP等各种异构数据源之间稳定高效的数据同步功能。
~~~ # 特点:
~~~ 易用性:没有界面,以执行脚本方式运行,对使用人员技术要求较高
~~~ 性能:数据抽取性能高
~~~ 部署:可独立部署
~~~ 适用场景:在异构数据库/文件系统之间高速交换数据
### --- kettle开源ETL工具。
~~~ 支持数据库、FTP、文件、rest接口、hdfs、hive等平台的据进行抽取、转换、传输等操作,
~~~ Java编写跨平台,C/S架构,不支持浏览器模式。
~~~ # 特点:
~~~ 易用性:有可视化设计器进行可视化操作,使用简单
~~~ 功能强大:不仅能进行数据传输,能同时进行数据清洗转换等操作
~~~ 支持多种源:支持各种数据库、FTP、文件、rest接口、hdfs、Hive等源
~~~ 部署方便:独立部署,不依赖第三方产品
~~~ 适用场景:数据量及增量不大,业务规则变化较快,要求可视化操作,对技术人员的技术门槛要求低。
### --- Logstash。
~~~ 应用程序日志、事件的传输、处理、管理和搜索的平台。
~~~ 可以用它来统一对应用程序日志进行收集管理,提供了Web接口用于查询和统计。
~~~ Scribe是Facebook开源的日志收集系统,它能够从各种日志源上收集日志,存储到
~~~ 一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通