10. Fluentd部署:高可用配置
对于高访问量的web站点或者服务,可以采用Fluentd的高可用配置模式。
- 消息分发语义
Fluentd设计初衷主要是用作事件日志分发系统的。这类系统支持几种不同的分发模式:
- 至多一次。消息被立即发送,若传输成功,该消息不会再被发送。发送失败,则会导致消息丢失。现实环境下会有很多情况导致发送失败,比如网络暂时不可用。
- 至少一次。消息至少会被发送一次,若发送失败,消息会被重发。这保证了消息不会被丢失,但可能导致接收端收到重复的消息。
- 精确只发一次。消息刚好发送一次,能确保送达且不会重复。这是大家所期望的分发模式。实现此模式可能需要采用同步化的日志处理方式,当达到发送瓶颈时,告知业务层已无法接收更多的日志。
为了在不影响业务性能的情况下收集大量的日志,日志层必须以异步的方式运行。因此,Fluentd只提供了前两种传输模式。
- 网络拓扑
为使得Fluentd具备高可用性,典型的部署架构需要包含两种不同角色的Fluentd模块:转发器(forwarder)和聚合器(aggregator)。其拓扑结构如下图所示
转发器部署在业务节点,用于收集业务方产生的本地日志事件,并将事件发送至聚合器。
聚合器持续地从转发器接收日志,对日志进行缓存,并定期上传日志到下一个处理方(典型的就是存储)。
聚合器采用主备模式。如上图,192.168.0.1为主,192.168.0.2为备。
- 转发器配置
转发器的典型配置如下所示:
# TCP input
<source>
@type forward
port 24224
</source>
# HTTP input
<source>
@type http
port 8888
</source>
# Log Forwarding
<match mytag.**>
@type forward
# primary host
<server>
host 192.168.0.1
port 24224
</server>
# use secondary host
<server>
host 192.168.0.2
port 24224
standby
</server>
# use longer flush_interval to reduce CPU usage.
# note that this is a trade-off against latency.
<buffer>
flush_interval 60s
</buffer>
</match>
这里有两个输入源,使用forward插件将日志事件发送到两个聚合器server中,其中通过standby指定192.168.0.2为备用聚合器。若两个聚合器节点都不可用,日志将会缓存在转发器节点。
- 聚合器配置
聚合器的典型配置如下所示:
# Input
<source>
@type forward
port 24224
</source>
# Output
<match mytag.**>
...
</match>
这个比较简单,使用forward插件作为输入源。日志会在本地缓存,并通过重传机制确保能送达目的地。
- 失败场景提示
5.1 转发失败
转发器收到应用层的日志事件后,先将事件写入本地磁盘缓存(由buffer_path指定)。每个flush_interval到来时,缓存事件被转发至聚合器。
转发器进程若发生崩溃,进程重启后会自动重发已缓存的日志;转发器和聚合器网络若发生故障,转发器也会对日志进行重传。这在一定程度上保证了转发器的健壮性。
但仍有一些情况可导致数据丢失:
- 转发器收到业务层日志,在将日志写入缓存之前发生崩溃
- 磁盘损坏
5.2 聚合失败
聚合器采用和转发器相同的失败处理机制,失败场景类似。
- 错误排查
采用此架构进行部署时,有时候会遇到“no nodes are available”的错误提示。这可能是节点间网络不通导致的。需要注意的是,节点之间通过24224端口传输数据,既使用TCP,也会使用UDP。
可通过以下命令进行检查:
$ telnet host 24224
$ nmap -p 24224 -sU host