随笔分类 - flume
摘要:读流程 1) HRegionServer保存着meta表以及表数据,要访问表数据,首先Client先去访问zookeeper,从zookeeper里面获取meta表所在的位置信息,即找到这个meta表在哪个HRegionServer上保存着。 2) 接着Client通过刚才获取到的HRegionSe
阅读全文
摘要:背景: 电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中,其中用户的行为数据日志格式如下:1,2268318,pv,1511544070 黑名单用户的定义规则如下: 如果某一件商品被同一用户在1分钟之内点击超过10次,那么此时这个用户就是当前商品的黑名单用户,我们需要将黑名单用户
阅读全文
摘要:mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa
阅读全文
摘要:||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作;50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口;50075(datanode的web访问端口)| |||snn(50090 snn的
阅读全文
摘要:说明 source: 2 channel: 1 sink: 1 注意: sink type: avro hostname: node port source type: avro bind: node1 port 画图理解 配置文件 服务器1的配置文件 [root@node1 oneother]#
阅读全文
摘要:说明 source: 3 channel: 2 sink: 2 画图理解 配置文件编写 [root@node1 data]# cat portAndDirAndFileToHDFSAndFlumeAndLogger.conf # 给flume采集进程agent起了一个别名 a1 # 定义flume进
阅读全文
摘要:画图理解 配置文件编写 第一个服务器 [root@node1 one]# cat fileToFlume.conf one.sources = r1 one.sinks = k1 one.channels = c1 one.sources.r1.type = exec one.sources.r1.
阅读全文
摘要:说明 source: 2 channel: 2 sink: 2 配置文件 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 r2 a1.sinks = k1 k2 a1.channels =
阅读全文
摘要:说明 source: netcat sink: hdfs 脚本编写 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 定义f
阅读全文
摘要:对应关系 在一个Flume进程中,source、channel、sink的关系是:1个source可以绑定多个channel,一个channel只能绑定1个sink。 source和channel是一对多的关系,sink和channel是一对一的关系。 source spooldir和exec的ta
阅读全文
摘要:说明 数据源:exec,这里命令是tail -F 目的地/下沉地:flume日志 编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel,以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1.
阅读全文
摘要:编写脚本 [root@node1 data]# cat dirandportToLogger.conf # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel,以及每一个source的别名 a1.sources = r1 r2 a1.sinks
阅读全文
摘要:案例说明 source:spooling directory Source 监控指定目录内数据变更 编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel,>以及每一个source的别名 a1.sources = r1 a1.sink
阅读全文
摘要:案例说明 数据源:netcat source 目的地:logger Sink source:netcat,host,post channel:基于内存的缓冲池 memory sink:logger 配置文件 [root@node1 data]# vim portToLogger.conf [root
阅读全文
摘要:Flume采集数据的工作图 Flume采集数据的工作流程 Flume配置过程 [root@node1 ~]# pwd /opt/software/ [root@node1 software]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /opt/app/
阅读全文