filebeat + logstash 日志采集链路配置

1. 概述

一个完整的采集链路的流程如下：

所以要进行采集链路的部署需要以下几个步聚：

nginx的配置
filebeat部署
logstash部署
kafka部署
kudu部署

下面将详细说明各个部分的部署方法，以及一些基本的配置参数。

2. 部署流程

nginx

1. 安装

nginx安装直接去官网下载一个压缩文件解压然后用sbin/nginx运行就可以了。

2. 配置

2.1 日志输出格式

nginx是采集链路的第一个环节，后面的日志采集系统是通过采集nginx日志进行分析的。本节主要对nginx的日志处理的配置进行描述。

对nginx.conf文件进行配置：

 log_format log_json escape=json '{ "@timestamp": "$time_local", '
                        '"remote_addr": "$remote_addr", '
                        '"referer": "$http_referer", '
                        '"project": "$arg_project", '
                        '"request": "$request", '
                        '"status": $status, '
                        '"bytes": $body_bytes_sent, '
                        '"request_body": "$request_body",'
                        '"data": "$arg_data",'
                        '"cookies": "$http_cookie"'
                        ' }';

上面的代码定义了一个nginx的日志输出格式并命名为log_json，并且使用escape=json参数来把变量中可能包含的json字符串自动转义。

这个日志输出哪些变量都可以灵活配置，取决于采集框架怎么进行数据解析。在本文中，前端发送的请求中，埋点数据可能出现在request body中，也可能出现在url参数中以data=xxx的形式转递，所以将这两个变量打印到日志中。

输出格式也可以灵活配置，在logstash的输入解析中进行对应的调整就可以了。使用json格式可以直接用json插件进行解析，否则可能就要用grok插件自己写正则进行解析了。这里推荐输出为json格式。

2.2 监听配置

 ...
 
 http {
 	...
 	
 	server {
         listen 2346;
         access_log logs/data_tracking/access.log log_json;
         location / {
             error_page 405 =200 $request_uri;
         }
     }
}

配置监听埋点端口，将请求日志打印到单独的一个文件夹中避免和其他日志混淆，并指定输出格式为上一节配置好的log_json。

同时把根请求的405代码转发为200，因为请求监听的端口并没有任何资源，请求会返回status_code = 405。

filebeat

filebeat是一款开源的轻量级日志采集工具，主要用于整合各个路径下的各种不同的日志文件，并且统一输出到指定的输出点。

对于filebeat的配置较为简单，而filebeat提供的功能也十分有限，只能进行简单的日志采集工作，所以需要和logstash配和使用

1. 安装

可以直接在官网下载rpm或deb包：

https://www.elastic.co/cn/downloads/beats/filebeat

下载后直接使用yum localinstall {pacakgeName}进行安装。

或者使用包管理软件如 apt 和 yum 进行安装：

首先引入公有签名key

sudo rpm --import https://packages.elastic.co/GPG-KEY-elasticsearch

然后再添加一个repo文件到/etc/yum.repos.d/目录中

[elastic-7.x]
name=Elastic repository for 7.x packages
baseurl=https://artifacts.elastic.co/packages/7.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

最后使用yum命令直接安装即可。

2. 配置和启动

filebeat默认安装在/usr/share/filebeat下

filebeat目录结构说明：

home 安装的根目录
bin 一些二进制执行文件
config 配置文件
data 持久化的数据文件
logs filebeat运行日志

在运行filebeat前，需要对filebeat的一些运行参数进行配置。

首先需要在filebeat根目录下新建一个filebeat.yml配置文件，并在其中写入如下的内容：

filebeat.inputs:
- type: log
  enabled: true
  paths: - /var/log/*.log
output.logstash:
  hosts:["localhost:5044"]

注意：所有的横线后都要空一格，不能直接跟字符串。这是YAML的语法格式，可以去了解一下。

filebeat.inputs指定了输入的配置。其中type指定了输入的类型是日志类型。paths指定了输入文件的路径，表示读取/var/log/路径下的所有.log结尾的文件。

output.logstash指定了输出到logstash的配置。其中hosts可以指定一个数组，写入多个输出地址。

设置开机启动filebeat

systemctl enable filebeat

通过bin/filebeat文件启动filebeat用:

bin/filebeat -e -c filebeat.yml

3. 和nginx的配合

首先修改filebeat.yml中的paths，指定输入为nginx埋点日志的输出位置。
使用include_lines，指定正则表达式来过滤不符合要求的行。

nginx日志输出格式是一个请求一行。否则进行单行过滤的时候会有大问题。
输出配置最好指定为内网ip。

filebeat:
  inputs:
    - type: log
      enabled: true
      paths:
        - /usr/local/openresty/nginx/logs/data_tracking/access.log*
      include_lines: ['"project": "test_bank_event"']

output.logstash:
    hosts: ["192.168.0.34:5055"]

logstash

logstash相对于filebeat并没有那么轻量，但相对来说有更多的功能和数据处理功能。所以一般将filebeat和logstash结合使用。用filebeat读取日志文件并输出到logstash中，再进行后续的数据处理。

1. 安装

logstash的安装方法和filebeat的安装基本相同，可以在官网下载安装包进行安装，在此不再赘述。

https://www.elastic.co/cn/downloads/logstash

2. 配置和启动

logstash 的默认安装路径也位于/usr/share/目录下。

其启动文件是安装根目录下的bin/logstash，对于一些简单的配置信息，可以直接以命令行参数的形式指定：

bin/logstash -e 'input { stdin {}} output{ stdout{}}'

这行命令指定了最基本的input和output为标准输入和标准输出。启动后直接在命令行输入内容，回车后就可以看到结构化处理后的数据输出：

hello world
/usr/share/logstash/vendor/bundle/jruby/2.5.0/gems/awesome_print-1.7.0/lib/awesome_print/formatters/base_formatter.rb:31: warning: constant ::Fixnum is deprecated
{
    "@timestamp" => 2020-06-08T03:38:04.658Z,
          "host" => "hadoop",
       "message" => "hello world",
      "@version" => "1"
}

要进行更多的配置，最好在安装根目录下新建一个 .conf格式的配置文件。

要将logstash和filebeat联合使用，需要让logstash接受一个beats格式的输入：

input{
	beats{
		port => "5044"
	}
}
# filter{
#
# }
output {
	stdout { codec => rubydebug}
}

上述配置指定了一个beats类型的input，并设置端口为5044

在写好配置文件后可以使用下面的命令对配置进行检查，其中-f指定了要加载的配置文件：

bin/logstash -f first-pipeline.conf --config.test_and_exit

--config.test_and_exit命令会加载配置文件并检查是否有错误，并在输出检查结果后自动退出。

如果检查通过，那么就可以启动logstash了：

bin/logstash -f first-pipeline.conf --config.reload.automatic

--config.reload.automatic命令开启了自动重载配置的功能，所以在修改完配置文件后可以不用重启服务，logstash会自动加载更新后的配置。

如果在filebeat中配置的输出地址和logstash中的输入beats地址相同，那么在启动了这两个服务后，logstash就可以收到filebeat读取到的日志内容。其基本格式和上文中从标准输入获取数据并输出的格式类似。

3. 和filebeat的配合

在输入配置了对应的filebeat的端口后，接下来主要是配置filter模块对日志进行解析，这部分也要根据nginx日志的结构进行灵活的配置。filebeat主要用来收集数据传输给logstash，当然filebeat中也可以进行一些简单的数据处理，但还是推荐filebeat只负责收集日志，发送到logstash进行统一处理。

下面是一份logstash的conf文件用于参考：

filter{
    # 首先对filebeat中的数据进行解析，其中'message'对应的值才是我们真正要解析的埋点数据
    # 其他还有很多filebeat自动生成的数据。
    # 这里使用json插件进行解析，解析完后就可以删除原来的变量了，减少不必要的数据传输
	json{
        source => "message"
        remove_field => ["message"]
    }
    # 对埋点数据进行url解码，因为埋点数据可能是通过url传输的，可能会有进行过url编码
    urldecode{
        all_fields => true
    }
    # 使用ruby进行base64解码，目标是'data'变量，结果赋值给新建的'b64_decoded'变量。
    ruby {
        init => "require 'base64'"
        code => "event.set('b64_decoded', Base64.decode64(event.get('data'))) if event.include?('data')"
        #这里解码出刚刚截取出来的msg字段
        remove_field => ["data","request"]
    }
    # 在解码后再进行一次json解析，把json字符串转换为json结构体
    json {
        source => "b64_decoded"
        remove_field => ["b64_decoded"]
    }
}

4. 和kafka的配合

由于本链路使用的存储为kudu数据库，而logstash是不支持直接写入kudu的；并且要考虑到并发处理和容错，所以要先将数据写入kafka消息队列，再由kafka写入kudu。

主要是配置conf文件中的output模块：

output{
    kafka {
        # 输出为json格式
        codec => json
        # 指定topic为'test_event'
        topic_id => "test_event"
    }
}

必要的配置就只有topic_id，更多的配置参考logstash官方文档对kafka插件的介绍。

kafka

1. 安装

2. 配置

3. 和kudu的对接

posted @ 2020-12-02 23:27 闻尔于达阅读(1807) 评论(0) 收藏举报

刷新页面返回顶部

Loading

三天前的灵魂

filebeat + logstash 日志采集链路配置

1. 概述

2. 部署流程

nginx

1. 安装

2. 配置

2.1 日志输出格式

2.2 监听配置

filebeat

1. 安装

2. 配置和启动

3. 和nginx的配合

logstash

1. 安装

2. 配置和启动

3. 和filebeat的配合

4. 和kafka的配合

kafka

1. 安装

2. 配置

3. 和kudu的对接

公告