flume - 随笔分类 - jsqup

hbase读写流程

摘要：读流程 1) HRegionServer保存着meta表以及表数据，要访问表数据，首先Client先去访问zookeeper，从zookeeper里面获取meta表所在的位置信息，即找到这个meta表在哪个HRegionServer上保存着。 2) 接着Client通过刚才获取到的HRegionSe 阅读全文

posted @ 2022-09-13 10:20 jsqup 阅读(34) 评论(0) 推荐(0)

Kafka、Flume、SparkStreaming的整合案例(电商网站的黑名单统计)

摘要：背景：电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中，其中用户的行为数据日志格式如下：1,2268318,pv,1511544070 黑名单用户的定义规则如下：如果某一件商品被同一用户在1分钟之内点击超过10次，那么此时这个用户就是当前商品的黑名单用户，我们需要将黑名单用户阅读全文

posted @ 2022-09-08 14:42 jsqup 阅读(142) 评论(0) 推荐(0)

spark中各个技术点中的依赖(pom.xml)

摘要：mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文

posted @ 2022-08-30 08:23 jsqup 阅读(581) 评论(0) 推荐(0)

访问端口总结

摘要：||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作；50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口；50075(datanode的web访问端口)| |||snn(50090 snn的阅读全文

posted @ 2022-08-19 12:06 jsqup 阅读(79) 评论(0) 推荐(0)

案例九：启动flume采集程序，其中采集两个数据源的数据，其中第一个数据源是服务器1上的端口数据。第二个数据源是服务器2上的目录数据。现在实现将服务器1和服务器2数据源上的数据统一输出到flume日志中

摘要：说明 source: 2 channel: 1 sink: 1 注意： sink type: avro hostname: node port source type: avro bind: node1 port 画图理解配置文件服务器1的配置文件 [root@node1 oneother]# 阅读全文

posted @ 2022-08-06 14:46 jsqup 阅读(75) 评论(0) 推荐(0)

案例七：启动一个flume采集数据程序，要求采集指定端口、指定目录、指定文件的数据，其中端口数据发送到HDFS和flume日志中，目录数据只发送给hdfs、文件数据只发送给logger

摘要：说明 source: 3 channel: 2 sink: 2 画图理解配置文件编写 [root@node1 data]# cat portAndDirAndFileToHDFSAndFlumeAndLogger.conf # 给flume采集进程agent起了一个别名 a1 # 定义flume进阅读全文

posted @ 2022-08-06 11:15 jsqup 阅读(97) 评论(0) 推荐(0)

案例八：多flume案例

摘要：画图理解配置文件编写第一个服务器 [root@node1 one]# cat fileToFlume.conf one.sources = r1 one.sinks = k1 one.channels = c1 one.sources.r1.type = exec one.sources.r1. 阅读全文

posted @ 2022-08-06 11:05 jsqup 阅读(52) 评论(0) 推荐(0)

案例六：启动一个采集数据进程，采集端口和文件内容数据，其中端口数据输出到flume日志中，同时需要输出到HDFS上，文件内容只需要输出到HDFS上

摘要：说明 source: 2 channel: 2 sink: 2 配置文件 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 r2 a1.sinks = k1 k2 a1.channels = 阅读全文

posted @ 2022-08-06 09:28 jsqup 阅读(37) 评论(0) 推荐(0)

案例五：启动一个采集数据进程，将监听到的端口数据输出到HDFS分布式文件系统上

摘要：说明 source: netcat sink: hdfs 脚本编写 # 给flume采集进程agent起了一个别名 a1 # 定义flume进程中有几个source 以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 定义f 阅读全文

posted @ 2022-08-06 08:25 jsqup 阅读(50) 评论(0) 推荐(0)

关于flume的对应关系及常用的source

摘要：对应关系在一个Flume进程中，source、channel、sink的关系是：1个source可以绑定多个channel，一个channel只能绑定1个sink。 source和channel是一对多的关系，sink和channel是一对一的关系。 source spooldir和exec的ta 阅读全文

posted @ 2022-08-05 17:36 jsqup 阅读(198) 评论(0) 推荐(0)

案例四：启动一个采集数据脚本，监听一个文件内容变化，将监听到的文件内容变化输出到flume日志中

摘要：说明数据源：exec，这里命令是tail -F 目的地/下沉地：flume日志编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，以及每一个source的别名 a1.sources = r1 a1.sinks = k1 a1. 阅读全文

posted @ 2022-08-05 17:33 jsqup 阅读(71) 评论(0) 推荐(0)

案例三：启动一个采集脚本，可以实现同时监听端口数据和目录数据，并且监听的端口数据和目录数据都输出到logger控制台

摘要：编写脚本 [root@node1 data]# cat dirandportToLogger.conf # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，以及每一个source的别名 a1.sources = r1 r2 a1.sinks 阅读全文

posted @ 2022-08-05 17:14 jsqup 阅读(43) 评论(0) 推荐(0)

案例二：监控一个目录下的文件变动，如果目录下有新文件产生，将新文件信息输出到flume日志中

摘要：案例说明 source：spooling directory Source 监控指定目录内数据变更编写脚本 # 给flume采集进程起一个别名 a1 # 定义flume进程中有几个source、sink、channel，>以及每一个source的别名 a1.sources = r1 a1.sink 阅读全文

posted @ 2022-08-05 16:46 jsqup 阅读(150) 评论(0) 推荐(0)

flume案例一：监听端口数据到flume日志中

摘要：案例说明数据源：netcat source 目的地：logger Sink source：netcat，host，post channel：基于内存的缓冲池 memory sink：logger 配置文件 [root@node1 data]# vim portToLogger.conf [root 阅读全文

posted @ 2022-08-05 15:53 jsqup 阅读(138) 评论(0) 推荐(0)

flume采集数据及环境配置

摘要：Flume采集数据的工作图 Flume采集数据的工作流程 Flume配置过程 [root@node1 ~]# pwd /opt/software/ [root@node1 software]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /opt/app/ 阅读全文

posted @ 2022-08-05 12:12 jsqup 阅读(88) 评论(0) 推荐(0)

jsqup

随笔分类 - flume

公告