apache 大数据平台搭建(flume)

flume一般安装在生成日志的应用服务器中,通过flume将应用服务器日志数据接入kafka或者hadoop文件系统等等

1.官网下载安装包

http://flume.apache.org/

2.解压安装

#进入安装包所在目录,执行解压命令
tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/

#将lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop 3.1.3
rm /opt/module/flume/lib/guava-11.0.2.jar

注意:删除guava-11.0.2.jar的服务器节点,一定要配置hadoop环境变量。否则会报如下异常
Caused by: java.lang.ClassNotFoundException: com.google.common.collect.Lists
        at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        ... 1 more

3.修改配置文件

将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置flume-env.sh文件

#添加java_home
export JAVA_HOME=/opt/module/jdk1.8.0_212

4.flume主要是与各种数据源的对接配置

详细配置可参考官网
http://flume.apache.org/FlumeUserGuide.html

总结:

  1. 核心为flume配置文件的编写,主要分三部分:source,channel,sink,跟logstash的配置文件中input,filter,output一样
  2. 跟kafka结合使用场景比较多,一般以kafka生产者的角色存在
  3. 自定义拦截器的使用
posted @ 2021-12-15 16:26  乐百事  阅读(153)  评论(0编辑  收藏  举报