apache 大数据平台搭建(flume)
flume一般安装在生成日志的应用服务器中,通过flume将应用服务器日志数据接入kafka或者hadoop文件系统等等
1.官网下载安装包
2.解压安装
#进入安装包所在目录,执行解压命令
tar -zxf /opt/software/apache-flume-1.9.0-bin.tar.gz -C /opt/module/
#将lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop 3.1.3
rm /opt/module/flume/lib/guava-11.0.2.jar
注意:删除guava-11.0.2.jar的服务器节点,一定要配置hadoop环境变量。否则会报如下异常
Caused by: java.lang.ClassNotFoundException: com.google.common.collect.Lists
at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 1 more
3.修改配置文件
将flume/conf下的flume-env.sh.template文件修改为flume-env.sh,并配置flume-env.sh文件
#添加java_home
export JAVA_HOME=/opt/module/jdk1.8.0_212
4.flume主要是与各种数据源的对接配置
详细配置可参考官网
http://flume.apache.org/FlumeUserGuide.html
总结:
- 核心为flume配置文件的编写,主要分三部分:source,channel,sink,跟logstash的配置文件中input,filter,output一样
- 跟kafka结合使用场景比较多,一般以kafka生产者的角色存在
- 自定义拦截器的使用
每个人都在奋不顾身,都在加倍努力,得过且过只会让你和别人的差距越来越大...