一、什么是Logstash
Logstash是一款轻量级的日志搜集处理框架,可以方便的把分散的、多样化的日志搜集起来,并进行自定义的处理,然后传输到指定的位置,比如某个服务器或者文件。
Logstash是一个开源的、接受来自多种数据源(input)、过滤数据源的数据(filter)、存储到其他设备的日志管理程序。Logstash包含三个基本插件input\filter\output,一个基本的logstash服务必须包含input和output.
Logstash如何工作:
Logstash数据处理有三个阶段,input–>filter–>output:input生产数据,filter根据定义的规则修改数据,output将数据输出到你定义的存储位置。
Inputs:
数据生产商,包含以下几个常用输出:
-
file: 从文件系统中读取文件,类似使用tail -0F
-
syslog: syslog服务,监听在514端口使用RFC3164格式
-
redis: 从redis服务读取,使用redis管道和列表。
-
beats: 一种代理,自己负责收集好数据然后转发给Logstash,常用的如filebeat.
Filters:
filters相当一个加工管道,它会一条一条过滤数据根据你定义的规则,常用的filters如下:
-
grok: 解析无规则的文字并转化为有结构的格式。
-
mutate: 丰富的基础类型处理,包括类型转换、字符串处理、字段处理等。
-
drop: 丢弃一部分events不进行处理,例如: debug events
-
clone: 负责一个event,这个过程中可以添加或删除字段。
-
geoip: 添加地理信息(为前台kibana图形化展示使用)
Outputs:
-
elasticserache elasticserache接收并保存数据,并将数据给kibana前端展示。
-
output 标准输出,直接打印在屏幕上。
二、Logstash的工作原理
Logstash使用管道方式进行日志的搜集处理和输出。有点类似*NIX系统的管道命令 xxx | ccc | ddd,xxx执行完了会执行ccc,然后执行ddd。
在logstash中,包括了三个阶段:
输入input --> 处理filter(不是必须的) --> 输出output
每个阶段都由很多的插件配合工作,比如file、elasticsearch、redis等等。
每个阶段也可以指定多种方式,比如输出既可以输出到elasticsearch中,也可以指定到stdout在控制台打印。
由于这种插件式的组织方式,使得logstash变得易于扩展和定制。
三、Logstash的安装配置
Logstash运行仅仅依赖java运行环境(jre),JDK版本1.8以上即可。直接从ELK官网下载Logstash:https://www.elastic.co/cn/logstash/
3.1 选择需要的版本下载:https://www.elastic.co/cn/downloads/past-releases#logstash
# 下载logstash wget https://artifacts.elastic.co/downloads/logstash/logstash-7.16.3-linux-x86_64.tar.gz # 创建目录 mkdir -p /usr/local/logstash # 复制安装包到指定目录 cp logstash-7.16.3-linux-x86_64.tar.gz /usr/local/logstash # 解压 cd /usr/local/logstash tar -zxvf logstash-7.16.3-linux-x86_64.tar.gz
3.2 启动测试
# 进入安装包目录
cd /usr/local/logstash/logstash-7.16.3
3.2.1 ./bin/logstash -e ''
[root@localhost logstash-7.16.3]# ./bin/logstash -e ''
我们现在可以在命令行下输入一些字符,然后我们将看到logstash的输出内容:
hello world { "type" => "stdin", "@timestamp" => 2022-02-16T06:29:41.329Z, "message" => "hello world", "host" => "localhost.localdomain", "@version" => "1" }
3.2.2 ./bin/logstash -e 'input { stdin { } } output { stdout {} }'
[root@localhost logstash-7.16.3]# ./bin/logstash -e 'input { stdin { } } output { stdout {} }'
我们现在可以在命令行下输入一些字符,然后我们将看到logstash的输出内容:
hello world { "message" => "hello world", "@version" => "1", "@timestamp" => 2022-02-16T06:33:37.052Z, "host" => "localhost.localdomain" }
3.2.3 ./bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'
[root@localhost logstash-7.16.3]# ./bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'
我们现在可以在命令行下输入一些字符,然后我们将看到logstash的输出内容:
hello world
{
"message" => "hello world",
"@version" => "1",
"@timestamp" => 2022-02-16T06:33:37.052Z,
"host" => "localhost.localdomain"
}
3.2.4 ./bin/logstash -f 配置文件
配置文件:
vim ./config/test.conf
# 配置内容
input {
stdin{
}
}
output {
stdout{
}
}
启动:
[root@localhost logstash-7.16.3]# ./bin/logstash -f ./config/test.conf
我们现在可以在命令行下输入一些字符,然后我们将看到logstash的输出内容:
hello world { "@version" => "1", "@timestamp" => 2022-02-16T07:11:12.773Z, "host" => "localhost.localdomain", "message" => "hello world" }
以上例子我们在运行logstash中,定义了一个叫”stdin”的input还有一个”stdout”的output,无论我们输入什么字符,Logstash都会按照某种格式来返回我们输入的字符。
类似的我们可以通过在你的配置文件中添加或者修改inputs、outputs、filters,就可以使随意的格式化日志数据成为可能,从而订制更合理的存储格式为查询提供便利。
前面已经说过Logstash必须有一个输入和一个输出,上面的例子表示从终端上输入并输出到终端。
四、命令行中常用的命令
-e:后面跟着字符串,该字符串可以被当做logstash的配置(如果是""则默认使用stdin作为输入,stdout作为输出)
-f:通过这个命令可以指定Logstash的配置文件,根据配置文件配置logstash
-t:测试配置文件是否正确,然后退出
-l:日志输出的地址(默认就是stdout直接在控制台中输出)
4.3. 配置文件说明
前面介绍过logstash基本上由三部分组成,input、output以及用户需要才添加的filter,因此标准的配置文件格式如下:
input {...}
filter {...}
output {...}
在每个部分中,也可以指定多个访问方式,例如我想要指定两个日志来源文件,则可以这样写:
input {
file { path =>"/var/log/messages" type =>"syslog"}
file { path =>"/var/log/apache/access.log" type =>"apache"}
}
类似的,如果在filter中添加了多种处理规则,则按照它的顺序一一处理,但是有一些插件并不是线程安全的。
比如在filter中指定了两个一样的的插件,这两个任务并不能保证准确的按顺序执行,因此官方也推荐避免在filter中重复使用插件。
说完这些,简单的创建一个配置文件的小例子看看:
input {
file {
#指定监听的文件路径,注意必须是绝对路径
path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/test.log"
start_position => beginning
}
}
filter {
}
output {
stdout {}
}
日志大致如下:注意最后有一个空行。
1 hello,this is first line in test.log!
2 hello,my name is xingoo!
3 goodbye.this is last line in test.log!
4
执行命令得到如下信息:
5. 最常用的input插件——file。
这个插件可以从指定的目录或者文件读取内容,输入到管道处理,也算是logstash的核心插件了,大多数的使用场景都会用到这个插件,因此这里详细讲述下各个参数的含义与使用。
5.1. 最小化的配置文件
在Logstash中可以在 input{} 里面添加file配置,默认的最小化配置如下:
input {
file {
path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/*"
}
}
filter {
}
output {
stdout {}
}
当然也可以监听多个目标文件:
input {
file {
path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
}
}
filter {
}
output {
stdout {}
}
5.2. 其他的配置
另外,处理path这个必须的项外,file还提供了很多其他的属性:
input {
file {
#监听文件的路径
path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
#排除不想监听的文件
exclude => "1.log"
#添加自定义的字段
add_field => {"test"=>"test"}
#增加标签
tags => "tag1"
#设置新事件的标志
delimiter => "\n"
#设置多长时间扫描目录,发现新文件
discover_interval => 15
#设置多长时间检测文件是否修改
stat_interval => 1
#监听文件的起始位置,默认是end
start_position => beginning
#监听文件读取信息记录的位置
sincedb_path => "E:/software/logstash-1.5.4/logstash-1.5.4/test.txt"
#设置多长时间会写入读取的位置信息
sincedb_write_interval => 15
}
}
filter {
}
output {
stdout {}
}
其中值得注意的是:
1 path
是必须的选项,每一个file配置,都至少有一个path
2 exclude
是不想监听的文件,logstash会自动忽略该文件的监听。配置的规则与path类似,支持字符串或者数组,但是要求必须是绝对路径。
3 start_position
是监听的位置,默认是end,即一个文件如果没有记录它的读取信息,则从文件的末尾开始读取,也就是说,仅仅读取新添加的内容。对于一些更新的日志类型的监听,通常直接使用end就可以了;相反,beginning就会从一个文件的头开始读取。但是如果记录过文件的读取信息,这个配置也就失去作用了。
4 sincedb_path
这个选项配置了默认的读取文件信息记录在哪个文件中,默认是按照文件的inode等信息自动生成。其中记录了inode、主设备号、次设备号以及读取的位置。因此,如果一个文件仅仅是重命名,那么它的inode以及其他信息就不会改变,因此也不会重新读取文件的任何信息。类似的,如果复制了一个文件,就相当于创建了一个新的inode,如果监听的是一个目录,就会读取该文件的所有信息。
5 其他的关于扫描和检测的时间,按照默认的来就好了,如果频繁创建新的文件,想要快速监听,那么可以考虑缩短检测的时间。
//6 add_field
#这个技术感觉挺六的,但是其实就是增加一个字段,例如:
file {
add_field => {"test"=>"test"}
path => "D:/tools/logstash/path/to/groksample.log"
start_position => beginning
}
6. Kafka与Logstash的数据采集对接
基于Logstash跑通Kafka还是需要注意很多东西,最重要的就是理解Kafka的原理。
6.1. Logstash工作原理
由于Kafka采用解耦的设计思想,并非原始的发布订阅,生产者负责产生消息,直接推送给消费者。而是在中间加入持久化层——broker,生产者把数据存放在broker中,消费者从broker中取数据。这样就带来了几个好处:
1 生产者的负载与消费者的负载解耦
2 消费者按照自己的能力fetch数据
3 消费者可以自定义消费的数量
另外,由于broker采用了主题topic-->分区的思想,使得某个分区内部的顺序可以保证有序性,但是分区间的数据不保证有序性。这样,消费者可以以分区为单位,自定义读取的位置——offset。
Kafka采用zookeeper作为管理,记录了producer到broker的信息,以及consumer与broker中partition的对应关系。因此,生产者可以直接把数据传递给broker,broker通过zookeeper进行leader-->followers的选举管理;消费者通过zookeeper保存读取的位置offset以及读取的topic的partition分区信息。
由于上面的架构设计,使得生产者与broker相连;消费者与zookeeper相连。有了这样的对应关系,就容易部署logstash-->kafka-->logstash的方案了。
接下来,按照下面的步骤就可以实现logstash与kafka的对接了。
6.2. 启动kafka
##启动zookeeper:
$zookeeper/bin/zkServer.sh start
##启动kafka:
$kafka/bin/kafka-server-start.sh $kafka/config/server.properties &
6.3. 创建主题
#创建主题:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --create --topic hello --replication-factor 1 --partitions 1
#查看主题:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --describe
6.4. 测试环境
#执行生产者脚本:
$kafka/bin/kafka-console-producer.sh --broker-list 10.0.67.101:9092 --topic hello
#执行消费者脚本,查看是否写入:
$kafka/bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --from-beginning --topic hello
6.5. 向kafka中输出数据
input{
stdin{}
}
output{
kafka{
topic_id => "hello"
bootstrap_servers => "192.168.0.4:9092,172.16.0.12:9092"
# kafka的地址
batch_size => 5
codec => plain {
format => "%{message}"
charset => "UTF-8"
}
}
stdout{
codec => rubydebug
}
}
6.6. 从kafka中读取数据
logstash配置文件:
input{
kafka {
codec => "plain"
group_id => "logstash1"
auto_offset_reset => "smallest"
reset_beginning => true
topic_id => "hello"
zk_connect => "192.168.0.5:2181"
}
}
output{
stdout{
codec => rubydebug
}
}
7. Filter
7.1. 过滤插件grok组件
#日志
55.3.244.1 GET /index.html 15824 0.043
bin/logstash -e '
input { stdin {} }
filter {
grok {
match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
}
}
output { stdout {codec => rubydebug} }'
7.2. 分割插件split
filter {
mutate {
split => { "message" => " " }
add_field => {
"event_type" => "%{message[3]}"
"current_map" => "%{message[4]}"
"current_X" => "%{message[5]}"
"current_y" => "%{message[6]}"
"user" => "%{message[7]}"
"item" => "%{message[8]}"
"item_id" => "%{message[9]}"
"current_time" => "%{message[12]}"
}
remove_field => [ "message" ]
}
}
四、 Kibana报表工具的安装和使用
1. 简介
Logstash 早期曾经自带了一个特别简单的 logstash-web 用来查看 ES 中的数据。其功能太过简单,于是产生了Kibana。不过是用PHP编写,后来为了满足更多的使用需求,懒人推动科技的进步嘛,并且Logstash使用ruby进行编写,所以重新编写Kibana,直到现在,Kibana因为重构,导致3,4某些情况下不兼容,所以出现了一山容二虎的情况,具体怎么选择,可以根据业务场景进行实际分析
在Kibana众多的优秀特性中,我个人最喜欢的是这一个特性,我起名叫包容性
因为在官网介绍中,Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch,支持的第三方技术包括Apache Flume、Fluentd等。这也就表明我在日常的开发工作中,对于技术选型和操作的时候,我可以有更多的选择,在开发时也能找到相应的开发实例,节省了大量的开发时间
ps:有一次体现了官网的重要性,真的,有时候官网可以帮你解决大多数的问题,有时间可以去看一下官网啊,好了,话不多说,看正题
2. 安装
下载安装包后解压
编辑文件config/kibana.yml ,配置属性:
[root@H32 ~]# cd kibana/config/
[root@H32 config]# vim kibana.yml
//添加:
server.host: "192.168.80.32"
elasticsearch.url: "http://172.16.0.14:9200"
先启动ES,然后再启动
cd /usr/local/kibana530bin/kibana
注意:
1、kibana必须是在root下运行,否则会报错,启动失败
2、下载解压安装包,一定要装与ES相同的版本
3. 导入数据
我们将使用莎士比亚全集作为我们的示例数据。要更好的使用 Kibana,你需要为自己的新索引应用一个映射集(mapping)。我们用下面这个映射集创建"莎士比亚全集"索引。实际数据的字段比这要多,但是我们只需要指定下面这些字段的映射就可以了。注意到我们设置了对 speaker 和 play_name 不分析。原因会在稍后讲明。
在终端运行下面命令:
curl -XPUT http://localhost:9200/shakespeare -d '
{
"mappings" : {
"_default_" : {
"properties" : {
"speaker" : {"type": "string", "index" : "not_analyzed" },
"play_name" : {"type": "string", "index" : "not_analyzed" },
"line_id" : { "type" : "integer" },
"speech_number" : { "type" : "integer" }
}
}
}
}
我们这就创建好了索引。现在需要做的时导入数据。莎士比亚全集的内容我们已经整理成了 elasticsearch 批量 导入所需要的格式,你可以通过shakeseare.json下载。
用如下命令导入数据到你本地的 elasticsearch 进程中。
curl -XPUT localhost:9200/_bulk --data-binary @shakespeare.json
4. 访问 Kibana 界面
打开浏览器,访问已经发布了 Kibana 的本地服务器。
如果你解压路径无误(译者注:使用 github 源码的读者记住发布目录应该是 kibana/src/ 里面),你已经就可以看到上面这个可爱的欢迎页面。点击 Sample Dashboard 链接
好了,现在显示的就是你的 sample dashboard!如果你是用新的 elasticsearch 进程开始本教程的,你会看到一个百分比占比很重的饼图。这里显示的是你的索引中,文档类型的情况。如你所见,99% 都是 lines,只有少量的 acts 和scenes。
在下面,你会看到一长段 JSON 格式的莎士比亚诗文。
5. 第一次搜索
Kibana 允许使用者采用 Lucene Query String 语法搜索 Elasticsearch 中的数据。请求可以在页面顶部的请求输入框中书写。
在请求框中输入如下内容。然后查看表格中的前几行内容。
friends, romans, countrymen
6. 配置另一个索引
目前 Kibana 指向的是 Elasticsearch 一个特殊的索引叫 _all。 _all 可以理解为全部索引的大集合。目前你只有一个索引, shakespeare,但未来你会有更多其他方面的索引,你肯定不希望 Kibana 在你只想搜《麦克白》里心爱的句子的时候还要搜索全部内容。
配置索引,点击右上角的配置按钮:
在这里,你可以设置你的索引为 shakespeare ,这样 Kibana 就只会搜索 shakespeare 索引的内容了。
这是因为 ES1.4 增强了权限管理。你需要在 ES 配置文件 elasticsearch.yml 中添加下列配置并重启服务后才能正常访问:
http.cors.enabled: true
http.cors.allow-origin: "*"
记住 kibana3 页面也要刷新缓存才行。
此外,如果你可以很明确自己 kibana 以外没有其他 http 访问,可以把 kibana 的网址写在http.cors.allow-origin 参数的值中。比如:
http.cors.allow-origin: "/https?:\/\/kbndomain/"
好了,到这里就结束了。
[root@localhost logstash-7.16.3]# ./bin/logstash -f ./config/test.conf
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本