摘要:
Hadoop开发存在的问题 只能用java语言开发,如果是c语言或其他语言的程序员用Hadoop,存在语言门槛。 需要对Hadoop底层原理,api比较了解才能做开发。 Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张表,并提供完整的sql查询功能,可以将 阅读全文
摘要:
一、Memory Channel 事件将被存储在内存中(指定大小的队列里) 非常适合那些需要高吞吐量且允许数据丢失的场景下 属性说明: 二、JDBC Channel 事件会被持久化(存储)到可靠的数据库里,目前支持嵌入式Derby数据库。即source=》channel=》sink。在传输的过程中, 阅读全文
摘要:
一、Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试 要求,在 --conf(-c )参数指定的目录下有log4j的配置文件 根据设计,logger sink将体内容限制为16字节,从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容,那么你应该 阅读全文
摘要:
source学习网址: http://flume.apache.org/FlumeUserGuide.html 一、Avro 类型的Source 监听Avro 端口来接收外部avro客户端的事件流。和netcat不同的是,avro-source接收到的是经过avro序列化后的数据,然后反序列化数据继 阅读全文
摘要:
安装步骤 1.安装jdk,1.6版本以上 2.上传flume的安装包 3.解压安装 4.在conf目录下,创建一个配置文件,比如:template.conf(名字可以不固定,后缀也可以不固定) 5.配置agent组件 相关配置: 6.根据指定的配置文件,来启动flume 进入flume的bin目录 阅读全文
摘要:
Flume 概念 Flume 最早是Cludera提供的日志收集系统,后贡献给Apache。所以目前是Apache下的项目,Flume支持在日志系统中指定各类数据发送方,用于收集数据。 Flume 是一个高可用的,高可靠的,鲁棒性(robust健壮性),分布式的海量日志采集、聚合和传输的系统,Flu 阅读全文