flume-sink

概述

从Flume Agent移除数据并写入到另一个Agent或数据存储或一些其他存储系统的组件被称为sink。Sink不断的轮询channel中的事件且批量的移除它们。这些事件批量写入到存储或索引系统，或者被发送到另一个Flume Agent。Sink是完全事务性的。在从channel批量移除数据之前，每个sink用channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，sink就利用channel提交事务。事务一旦被提交，该channel从自己的内部缓冲区删除事件。
sink的生命周期

·每个sink至少有一个正确配置的channel连接它
·每个sink有一个定义的type参数
·sink是在Agent中sink活跃列表中的
Flume可以聚合线程到sink组，每个sink组可以包含一个或多个sink。如果一个sink没有定义分组，那么该sink可以被认为是在一个组内，且该sink是组内的唯一成员。
每个sink运行器运行一个sink组，sink运行器是一个针对sink组循环调用process方法的线程，依次转发调用到组里其中一个sink的process方法。
类似于其他所有的组件（除了Memory Channel），当Flume被重新配置，sink的实例是不会被重用的。因此，sink不应该缓冲任何已被读取和提交的事件。这是因为提交事务表明channel可以删除在事务的上下文中读取的事件。
优化sink的性能

当个别sink比写入到指定channel的速率要慢很多时，那就值得添加更多sink用来写入到相同目的地和从相同channel读取事件。当增加sink数量来提升性能时，必须确保的一点是资源不会因过度使用而结束，创建有太多上下文切换或网络的情况下将导致阻塞。
HDFS Sink

可以基于事件的报头、事件的时间戳等配置写入到不同的目录。HDFS Sink支持Hadoop1和Hadoop2,但是代码必须针对Hadoop的相关版本进行特定的编译，这是因为在Hadoop1和Hadoop2之间二进制不兼容性变化。

HDFS Sink将数据写到HDFS的bucket。实际上，一个bucket就是一个目录。一个HDFS Sink可以同时将数据写到多个bucket中，但是一个事件将只进入到一个bucket中。无论任何时候每个bucket最多只有一个文件打开，但每个sink在不同的bucket里可以打开若干文件。Flume允许用户基于配置文件中不同指定参数动态创建bucket。HDFS Sink批量处理事件，在一个批处理中刷新所有的事件到HDFS中。如果一个事件再次被写入到同一个bucket，那么sink将会创建一个新的文件。
理解bucket

HDFS Sink使用几个参数创建bucket路径。为了动态创建这些路径，配置文件必须指明路径为hdfs.path参数。该路径可以指定一个或多个sink将取代的转义序列，用来构造写事件的真实路径。

当HDFS Sink从channel读取一个事件，它读取主体报头的值，并利用配置参数，将路径的转义序列替换为指定主体报头的值。HDFS Sink提供了很强大的时间戳的转义。它支持几个使用时间戳事件报头值的转移序列。多个转移序列可以在相同的路径中使用：

这个例子对于每一个主题，将把所有时间戳为相同小时的事件写到相同目录内。

使用该配置，用户可以每10分钟就有一个bucket
使用序列化器控制数据格式

序列化类必须实现EventSerrializer接口。
Flume内置了三类序列化器：TEXT序列化器、HEADER_AND_TEXT序列化器、AVRO_EVENT序列化器。
TEXT序列化器以事件主体本身写入到文件，可以根据需要在事件之间插入新的一行。
HEADER_AND_TEXT序列化器也做相同的事情，但也包括“key=value”格式的事件报头。默认会在事件之间插入新的一行。这可以通过将appendNewline的值设置为false来禁用：

AVRO_EVENT序列化器使用下面所示的模式，将事件写出为Avro container文件：
HBase Sink

Flume有两类HBase Sink：HBase Sink和Async HBase Sink。HBase客户端API是阻塞的，所以HBase Sink逐个向HBase集群发送事件。Async HBase API是非阻塞的且使用多线程写数据到HBase。所以，大多数情况下，Async HBase Sink有可能给出更好的性能。但是HBase Sink支持安全HBase，Async HBase不支持。这两个HBase sink都是批量写事件
RPC Sink

如果从一个Flume Agent发送数据到另一个Agent，那么要使用RPC Sink。RPC Sink和对应的RPC Source使用相同的RPC协议。Flume支持两种RPC系统：Avro和Thrift，Avro被认为是Flume主要的RPC格式。
Avro Sink使用Avro的Netty-based RPC协议发送数据到Avro Source。Avro Sink可以批量发送事件到Avro Source。
Thrift Sink可以用来在FlumeAgent之间使用Thrift RPC进行通信。Thrift Sink跟Avro Sink很像，但它缺少压缩和SSL功能。在Flume Agent之间推荐使用Avro RPC通信。
Morphline Solr Sink

Morphlines是一个高度可扩展的ETL框架，几个命令可以连在一起，且使一个命令的输出作为下一个命令的输入，来执行数据的重量级转换。Morphline Solr Sink整合Morphline框架和提供Sink的Flume，可以从Flume管道传输数据到Morphline，最终加载事件到Solr索引。
Morphline库提供了一个称为loadSolr的命令，可以加载记录到solr。
Elastic Search Sink

Flume可以使用Elastic Search Sink实时加载数据到Elastic Search来创建索引。
其他sink

①Null Sink
用于从channel读取事件并删除它们。这类sink的目的是检测其余agent的功能和特性。Null Sink批量地从channel移除事件并更新日志文件。

②Rolling File Sink
Rolling File Sink写事件到本地文件系统。

③Logger Sink
Logger Sink记录到log4j.properties文件中配置的Flume Agent的log4j日志文件。该Sink所有的配置都从log4j.properties文件中获取，且它不需要任何其他的参数。
编写自定义Sink

自定义Sink必须实现Sink接口，如果Sink需要接受来自配置系统的配置，那么可以选择实现Configurable接口。为了更好地理解如何编写一个Sink，很重的是要理解Flume框架如何与Sink交互。

当Agent 启动时，框架检查来确保每个Sink 有一个指定的type，且有一Channel 参数的值代表了Agent 中已经存在的配置合适的Channel.然后Sink 被实例化且配置传递给它的configure方法。如果configure方法失败且抛出异常，那么该Sink 会从Agent 中移除且删除它的实例。一且Sink 成功配置，它就连接到应该从其中读取事件的Channel.

从那时起，Sink由一个Sink 运行器管理。Sink 运行器只是一个负责运行该Sink的线程。框架通过调用start方法来启动Sink。如果start失败，该框架将反复重试启动Sink.

一旦Sink 启动，Sink运行器线程就循环调用process 方法。该方法负责从Channel 读取数据并写出到下一阶段或最终目的地。每个process 调用必须处理整个事务——启动事务，从Channel读取事件，提交或回滚事务，并最终关闭事务。如果Channel 不包含任何Sink可以移除的事件，process方法必须返回Status.BACKOFF,这使得Sink 运行器只在一个时间间隔后重试。如果Sink 成功，它必须返同Status.READY状态，且运行器将立即再次调用process 方法。

当从Channel读取数据或写入到目的地时，如果遇到一些异常，sink 必须返同status.BACKOFF状态或抛出异常以报告失败。这使Sink 运行器减慢速度，如果不能消除下流Agent或最终目的地的数据，这也是避免发送数据到下一阶段的调节机制。在Flume框架中，为了正确地运行，process方法必须是线程安全的。

1. Flume Sinks

1.1 HDFS Sink

该sink把events写进Hadoop分布式文件系统（HDFS）。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性（如时间戳或发生事件的机器）把数据划分为桶或区。

agent a1的示例：

上述配置会将时间戳降到最后10分钟。例如，带有11:54:34 AM，June 12，2012时间戳的event将会造成hdfs路径变成/flume/events/2012-06-12/1150/00。

1.2 Hive Sink

该sink streams 将包含分割文本或者JSON数据的events直接传送到Hive表或分区中。使用Hive 事务写events。当一系列events提交到Hive时，它们马上可以被Hive查询到。

Hive table 示例：

agent a1示例：

上述配置将会把时间戳降到最后10分钟。例如，event时间戳 header设置为 11:54:34 AM, June 12，2012 ，和 ‘country’ header 设置为 ‘india’ , 该event评估到partition（continent='asia', country='india', time='2012-06-12-11-50'）。