摘要: 各组件的简介 使用Flume/logstash抽取服务器上的日志数据以及使用sqoop/spark抽取关系型数据库的数据,将数据抽取到HDFS(压缩+普通文本格式)。 将hdfs上数据通过(MR/Spark/Flink)清洗出来后存放数仓(hive) 将原始的数据放到目标位置(hive的外部表) 业 阅读全文
posted @ 2019-06-11 17:02 任重而道远的小蜗牛 阅读(1105) 评论(0) 推荐(0) 编辑
摘要: Flume的定义 Flume是一个分布式的、高可靠的、高可用的将大批量的不同数据源的日志数据收集、聚合、移动到数据中心(HDFS)进行存储的系统。即是日志采集和汇总的工具 Logstash、FileBeat是ES栈的日志数据抽取工具,他们和Flume很类似,前者是轻量级、后者是重量级,若项目组使用的 阅读全文
posted @ 2019-06-11 15:58 任重而道远的小蜗牛 阅读(28928) 评论(1) 推荐(3) 编辑