一、什么是Logstash

Logstash是一款轻量级的日志搜集处理框架，可以方便的把分散的、多样化的日志搜集起来，并进行自定义的处理，然后传输到指定的位置，比如某个服务器或者文件。

Logstash是一个开源的、接受来自多种数据源（input）、过滤数据源的数据（filter）、存储到其他设备的日志管理程序。Logstash包含三个基本插件input\filter\output，一个基本的logstash服务必须包含input和output.

Logstash如何工作：

Logstash数据处理有三个阶段，input–>filter–>output：input生产数据，filter根据定义的规则修改数据，output将数据输出到你定义的存储位置。

Inputs:

数据生产商，包含以下几个常用输出：

file: 从文件系统中读取文件，类似使用tail -0F
syslog: syslog服务，监听在514端口使用RFC3164格式
redis: 从redis服务读取，使用redis管道和列表。
beats: 一种代理，自己负责收集好数据然后转发给Logstash，常用的如filebeat.

Filters:

filters相当一个加工管道，它会一条一条过滤数据根据你定义的规则，常用的filters如下：

grok: 解析无规则的文字并转化为有结构的格式。
mutate: 丰富的基础类型处理，包括类型转换、字符串处理、字段处理等。
drop: 丢弃一部分events不进行处理，例如： debug events
clone: 负责一个event,这个过程中可以添加或删除字段。
geoip: 添加地理信息（为前台kibana图形化展示使用）

Outputs:

elasticserache elasticserache接收并保存数据，并将数据给kibana前端展示。
output 标准输出，直接打印在屏幕上。

二、Logstash的工作原理

　　Logstash使用管道方式进行日志的搜集处理和输出。有点类似*NIX系统的管道命令 xxx | ccc | ddd，xxx执行完了会执行ccc，然后执行ddd。

　　在logstash中，包括了三个阶段:

　　输入input --> 处理filter（不是必须的） --> 输出output

　　每个阶段都由很多的插件配合工作，比如file、elasticsearch、redis等等。

　　每个阶段也可以指定多种方式，比如输出既可以输出到elasticsearch中，也可以指定到stdout在控制台打印。

　　由于这种插件式的组织方式，使得logstash变得易于扩展和定制。

三、Logstash的安装配置

Logstash运行仅仅依赖java运行环境(jre)，JDK版本1.8以上即可。直接从ELK官网下载Logstash：https://www.elastic.co/cn/logstash/

3.1 选择需要的版本下载：https://www.elastic.co/cn/downloads/past-releases#logstash

# 下载logstash
wget https://artifacts.elastic.co/downloads/logstash/logstash-7.16.3-linux-x86_64.tar.gz
# 创建目录
mkdir -p /usr/local/logstash
# 复制安装包到指定目录
cp logstash-7.16.3-linux-x86_64.tar.gz /usr/local/logstash
# 解压
cd /usr/local/logstash
tar -zxvf logstash-7.16.3-linux-x86_64.tar.gz

3.2 启动测试

# 进入安装包目录
cd /usr/local/logstash/logstash-7.16.3

3.2.1 ./bin/logstash -e ''

[root@localhost logstash-7.16.3]# ./bin/logstash -e ''

我们现在可以在命令行下输入一些字符，然后我们将看到logstash的输出内容：

hello world
{
    "type" => "stdin",
    "@timestamp" => 2022-02-16T06:29:41.329Z,
    "message" => "hello world",
    "host" => "localhost.localdomain",
    "@version" => "1"
}

3.2.2 ./bin/logstash -e 'input { stdin { } } output { stdout {} }'

[root@localhost logstash-7.16.3]# ./bin/logstash -e 'input { stdin { } } output { stdout {} }'

我们现在可以在命令行下输入一些字符，然后我们将看到logstash的输出内容：

hello world
{
    "message" => "hello world",
    "@version" => "1",
    "@timestamp" => 2022-02-16T06:33:37.052Z,
    "host" => "localhost.localdomain"
}

3.2.3 ./bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'

[root@localhost logstash-7.16.3]# ./bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'

我们现在可以在命令行下输入一些字符，然后我们将看到logstash的输出内容：

hello world
{
    "message" => "hello world",
    "@version" => "1",
    "@timestamp" => 2022-02-16T06:33:37.052Z,
    "host" => "localhost.localdomain"
}

3.2.4 ./bin/logstash -f 配置文件

配置文件：

vim ./config/test.conf
# 配置内容
input {
    stdin{
    }
}
output {
    stdout{
    }
}

启动：

[root@localhost logstash-7.16.3]# ./bin/logstash -f ./config/test.conf

我们现在可以在命令行下输入一些字符，然后我们将看到logstash的输出内容：

hello world
{
    "@version" => "1",
    "@timestamp" => 2022-02-16T07:11:12.773Z,
    "host" => "localhost.localdomain",
    "message" => "hello world"
}

以上例子我们在运行logstash中，定义了一个叫”stdin”的input还有一个”stdout”的output，无论我们输入什么字符，Logstash都会按照某种格式来返回我们输入的字符。

类似的我们可以通过在你的配置文件中添加或者修改inputs、outputs、filters，就可以使随意的格式化日志数据成为可能，从而订制更合理的存储格式为查询提供便利。

前面已经说过Logstash必须有一个输入和一个输出，上面的例子表示从终端上输入并输出到终端。

四、命令行中常用的命令

　-e：后面跟着字符串，该字符串可以被当做logstash的配置（如果是""则默认使用stdin作为输入，stdout作为输出）

　-f：通过这个命令可以指定Logstash的配置文件，根据配置文件配置logstash

　-t：测试配置文件是否正确，然后退出

　-l：日志输出的地址（默认就是stdout直接在控制台中输出）

4.3．配置文件说明

　　前面介绍过logstash基本上由三部分组成，input、output以及用户需要才添加的filter，因此标准的配置文件格式如下：

input {...}
filter {...}
output {...}

原理实践，全面讲解Logstash+Kibana+kafka

　　在每个部分中，也可以指定多个访问方式，例如我想要指定两个日志来源文件，则可以这样写：

input {
 file { path =>"/var/log/messages" type =>"syslog"}
 file { path =>"/var/log/apache/access.log" type =>"apache"}
}

　　类似的，如果在filter中添加了多种处理规则，则按照它的顺序一一处理，但是有一些插件并不是线程安全的。

　　比如在filter中指定了两个一样的的插件，这两个任务并不能保证准确的按顺序执行，因此官方也推荐避免在filter中重复使用插件。

说完这些，简单的创建一个配置文件的小例子看看：

input {
file {
　　 #指定监听的文件路径，注意必须是绝对路径
        path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/test.log"
        start_position => beginning
    }
}
filter {
    
}
output {
    stdout {}
}

日志大致如下：注意最后有一个空行。

1 hello,this is first line in test.log!
2 hello,my name is xingoo!
3 goodbye.this is last line in test.log!
4

　执行命令得到如下信息：

原理实践，全面讲解Logstash+Kibana+kafka

5．最常用的input插件——file。

　这个插件可以从指定的目录或者文件读取内容，输入到管道处理，也算是logstash的核心插件了，大多数的使用场景都会用到这个插件，因此这里详细讲述下各个参数的含义与使用。

5.1．最小化的配置文件

在Logstash中可以在 input{} 里面添加file配置，默认的最小化配置如下：

input {
    file {
        path => "E:/software/logstash-1.5.4/logstash-1.5.4/data/*"
    }
}
filter {
    
}
output {
    stdout {}
}

当然也可以监听多个目标文件：

input {
    file {
        path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
    }
}
filter {
    
}
output {
    stdout {}
}

5.2．其他的配置

另外，处理path这个必须的项外，file还提供了很多其他的属性：

input {
    file {
        #监听文件的路径
        path => ["E:/software/logstash-1.5.4/logstash-1.5.4/data/*","F:/test.txt"]
 
        #排除不想监听的文件
        exclude => "1.log"
        
        #添加自定义的字段
        add_field => {"test"=>"test"}
 
        #增加标签
        tags => "tag1"
 
        #设置新事件的标志
        delimiter => "\n"
 
        #设置多长时间扫描目录，发现新文件
        discover_interval => 15
 
        #设置多长时间检测文件是否修改
        stat_interval => 1
 
         #监听文件的起始位置，默认是end
        start_position => beginning
 
        #监听文件读取信息记录的位置
        sincedb_path => "E:/software/logstash-1.5.4/logstash-1.5.4/test.txt"
 
        #设置多长时间会写入读取的位置信息
        sincedb_write_interval => 15
        
    }
}
filter {
    
}
output {
    stdout {}
}

　　其中值得注意的是：

　　1 path

　　是必须的选项，每一个file配置，都至少有一个path

　　2 exclude

　　是不想监听的文件，logstash会自动忽略该文件的监听。配置的规则与path类似，支持字符串或者数组，但是要求必须是绝对路径。

　　3 start_position

　　是监听的位置，默认是end，即一个文件如果没有记录它的读取信息，则从文件的末尾开始读取，也就是说，仅仅读取新添加的内容。对于一些更新的日志类型的监听，通常直接使用end就可以了；相反，beginning就会从一个文件的头开始读取。但是如果记录过文件的读取信息，这个配置也就失去作用了。

　　4 sincedb_path

　　这个选项配置了默认的读取文件信息记录在哪个文件中，默认是按照文件的inode等信息自动生成。其中记录了inode、主设备号、次设备号以及读取的位置。因此，如果一个文件仅仅是重命名，那么它的inode以及其他信息就不会改变，因此也不会重新读取文件的任何信息。类似的，如果复制了一个文件，就相当于创建了一个新的inode，如果监听的是一个目录，就会读取该文件的所有信息。

　　5 其他的关于扫描和检测的时间，按照默认的来就好了，如果频繁创建新的文件，想要快速监听，那么可以考虑缩短检测的时间。

　　//6 add_field
　　#这个技术感觉挺六的，但是其实就是增加一个字段，例如：
file {
     add_field => {"test"=>"test"}
        path => "D:/tools/logstash/path/to/groksample.log"
        start_position => beginning
    }

6．　Kafka与Logstash的数据采集对接

基于Logstash跑通Kafka还是需要注意很多东西，最重要的就是理解Kafka的原理。

6.1． Logstash工作原理

由于Kafka采用解耦的设计思想，并非原始的发布订阅，生产者负责产生消息，直接推送给消费者。而是在中间加入持久化层——broker,生产者把数据存放在broker中，消费者从broker中取数据。这样就带来了几个好处:

1 生产者的负载与消费者的负载解耦

2 消费者按照自己的能力fetch数据

3 消费者可以自定义消费的数量

另外，由于broker采用了主题topic-->分区的思想，使得某个分区内部的顺序可以保证有序性，但是分区间的数据不保证有序性。这样，消费者可以以分区为单位，自定义读取的位置——offset。

Kafka采用zookeeper作为管理，记录了producer到broker的信息，以及consumer与broker中partition的对应关系。因此，生产者可以直接把数据传递给broker，broker通过zookeeper进行leader-->followers的选举管理；消费者通过zookeeper保存读取的位置offset以及读取的topic的partition分区信息。

原理实践，全面讲解Logstash+Kibana+kafka

由于上面的架构设计，使得生产者与broker相连；消费者与zookeeper相连。有了这样的对应关系，就容易部署logstash-->kafka-->logstash的方案了。

接下来，按照下面的步骤就可以实现logstash与kafka的对接了。

原理实践，全面讲解Logstash+Kibana+kafka

6.2．启动kafka

##启动zookeeper：
$zookeeper/bin/zkServer.sh start

##启动kafka：
$kafka/bin/kafka-server-start.sh $kafka/config/server.properties &

6.3．创建主题

#创建主题:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --create --topic hello --replication-factor 1 --partitions 1

#查看主题:
$kafka/bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --describe

6.4．测试环境

#执行生产者脚本:
$kafka/bin/kafka-console-producer.sh --broker-list 10.0.67.101:9092 --topic hello

#执行消费者脚本，查看是否写入:
$kafka/bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --from-beginning --topic hello

6.5．向kafka中输出数据

input{
       stdin{}
      }
output{
       kafka{
       topic_id => "hello" 
       bootstrap_servers => "192.168.0.4:9092,172.16.0.12:9092" 
       # kafka的地址 
       batch_size => 5
  codec => plain {
format => "%{message}"
charset => "UTF-8"
  }
      }
stdout{
       codec => rubydebug
      }
}

6.6．从kafka中读取数据

logstash配置文件:

input{
      kafka {
              codec => "plain" 
              group_id => "logstash1" 
              auto_offset_reset => "smallest" 
              reset_beginning => true 
              topic_id => "hello" 
              zk_connect => "192.168.0.5:2181" 
              }
       }
output{
       stdout{
               codec => rubydebug
               }
       }

7． Filter

7.1．过滤插件grok组件

#日志
55.3.244.1 GET /index.html 15824 0.043
 
bin/logstash -e '
input { stdin {} }
filter {
  grok {
    match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
  }
}
output { stdout {codec => rubydebug} }'

7.2．分割插件split

filter {
  mutate {
    split => { "message" => " " }
      add_field => {
        "event_type" => "%{message[3]}"
        "current_map" => "%{message[4]}"
        "current_X" => "%{message[5]}"
        "current_y" => "%{message[6]}"
        "user" => "%{message[7]}"
        "item" => "%{message[8]}"
        "item_id" => "%{message[9]}"
        "current_time" => "%{message[12]}"
     }
     remove_field => [ "message" ]
  }
}

四、 Kibana报表工具的安装和使用

1．简介

Logstash 早期曾经自带了一个特别简单的 logstash-web 用来查看 ES 中的数据。其功能太过简单，于是产生了Kibana。不过是用PHP编写，后来为了满足更多的使用需求，懒人推动科技的进步嘛，并且Logstash使用ruby进行编写，所以重新编写Kibana，直到现在，Kibana因为重构，导致3，4某些情况下不兼容，所以出现了一山容二虎的情况，具体怎么选择，可以根据业务场景进行实际分析

原理实践，全面讲解Logstash+Kibana+kafka

在Kibana众多的优秀特性中，我个人最喜欢的是这一个特性，我起名叫包容性

原理实践，全面讲解Logstash+Kibana+kafka

　　因为在官网介绍中，Kibana可以非常方便地把来自Logstash、ES-Hadoop、Beats或第三方技术的数据整合到Elasticsearch，支持的第三方技术包括Apache Flume、Fluentd等。这也就表明我在日常的开发工作中，对于技术选型和操作的时候，我可以有更多的选择，在开发时也能找到相应的开发实例，节省了大量的开发时间

ps：有一次体现了官网的重要性，真的，有时候官网可以帮你解决大多数的问题，有时间可以去看一下官网啊，好了，话不多说，看正题

2．安装

下载安装包后解压

编辑文件config/kibana.yml ，配置属性：

[root@H32 ~]# cd kibana/config/
 [root@H32 config]# vim kibana.yml
 //添加：
 server.host: "192.168.80.32"
elasticsearch.url: "http://172.16.0.14:9200"

先启动ES，然后再启动

cd /usr/local/kibana530bin/kibana

注意：

1、kibana必须是在root下运行，否则会报错，启动失败

2、下载解压安装包，一定要装与ES相同的版本

3．导入数据

我们将使用莎士比亚全集作为我们的示例数据。要更好的使用 Kibana，你需要为自己的新索引应用一个映射集(mapping)。我们用下面这个映射集创建"莎士比亚全集"索引。实际数据的字段比这要多，但是我们只需要指定下面这些字段的映射就可以了。注意到我们设置了对 speaker 和 play_name 不分析。原因会在稍后讲明。

在终端运行下面命令：

curl -XPUT http://localhost:9200/shakespeare -d '
{
 "mappings" : {
  "_default_" : {
   "properties" : {
    "speaker" : {"type": "string", "index" : "not_analyzed" },
    "play_name" : {"type": "string", "index" : "not_analyzed" },
    "line_id" : { "type" : "integer" },
    "speech_number" : { "type" : "integer" }
   }
  }
 }
}

我们这就创建好了索引。现在需要做的时导入数据。莎士比亚全集的内容我们已经整理成了 elasticsearch 批量导入所需要的格式，你可以通过shakeseare.json下载。

用如下命令导入数据到你本地的 elasticsearch 进程中。

curl -XPUT localhost:9200/_bulk --data-binary @shakespeare.json

4．访问 Kibana 界面

打开浏览器，访问已经发布了 Kibana 的本地服务器。

原理实践，全面讲解Logstash+Kibana+kafka

如果你解压路径无误(译者注：使用 github 源码的读者记住发布目录应该是 kibana/src/ 里面)，你已经就可以看到上面这个可爱的欢迎页面。点击 Sample Dashboard 链接

原理实践，全面讲解Logstash+Kibana+kafka

好了，现在显示的就是你的 sample dashboard！如果你是用新的 elasticsearch 进程开始本教程的，你会看到一个百分比占比很重的饼图。这里显示的是你的索引中，文档类型的情况。如你所见，99% 都是 lines，只有少量的 acts 和scenes。

在下面，你会看到一长段 JSON 格式的莎士比亚诗文。

5．第一次搜索

Kibana 允许使用者采用 Lucene Query String 语法搜索 Elasticsearch 中的数据。请求可以在页面顶部的请求输入框中书写。

原理实践，全面讲解Logstash+Kibana+kafka

在请求框中输入如下内容。然后查看表格中的前几行内容。

friends, romans, countrymen

原理实践，全面讲解Logstash+Kibana+kafka

6．配置另一个索引

目前 Kibana 指向的是 Elasticsearch 一个特殊的索引叫 _all。 _all 可以理解为全部索引的大集合。目前你只有一个索引， shakespeare，但未来你会有更多其他方面的索引，你肯定不希望 Kibana 在你只想搜《麦克白》里心爱的句子的时候还要搜索全部内容。

配置索引，点击右上角的配置按钮：

原理实践，全面讲解Logstash+Kibana+kafka

在这里，你可以设置你的索引为 shakespeare ，这样 Kibana 就只会搜索 shakespeare 索引的内容了。

原理实践，全面讲解Logstash+Kibana+kafka

这是因为 ES1.4 增强了权限管理。你需要在 ES 配置文件 elasticsearch.yml 中添加下列配置并重启服务后才能正常访问：

http.cors.enabled: true
http.cors.allow-origin: "*"

记住 kibana3 页面也要刷新缓存才行。

此外，如果你可以很明确自己 kibana 以外没有其他 http 访问，可以把 kibana 的网址写在http.cors.allow-origin 参数的值中。比如：

http.cors.allow-origin: "/https?:\/\/kbndomain/"

好了，到这里就结束了。

[root@localhost logstash-7.16.3]# ./bin/logstash -f ./config/test.conf

posted on 2022-02-16 15:50 java先生阅读(183) 评论(0) 编辑收藏举报

刷新页面返回顶部

一、什么是Logstash

二、Logstash的工作原理

三、Logstash的安装配置

3.1 选择需要的版本下载：https://www.elastic.co/cn/downloads/past-releases#logstash

3.2 启动测试

3.2.1 ./bin/logstash -e ''

3.2.2 ./bin/logstash -e 'input { stdin { } } output { stdout {} }'

3.2.3 ./bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }'

3.2.4 ./bin/logstash -f 配置文件

四、命令行中常用的命令

4.3． 配置文件说明

5． 最常用的input插件——file。

5.1． 最小化的配置文件

5.2． 其他的配置

6． Kafka与Logstash的数据采集对接

7． Filter

四、 Kibana报表工具的安装和使用

1． 简介

2． 安装

3． 导入数据

4． 访问 Kibana 界面

5． 第一次搜索

6． 配置另一个索引

4.3．配置文件说明

5．最常用的input插件——file。

5.1．最小化的配置文件

5.2．其他的配置

6．　Kafka与Logstash的数据采集对接

1．简介

2．安装

3．导入数据

4．访问 Kibana 界面

5．第一次搜索

6．配置另一个索引