摘要: 背景: 电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中,其中用户的行为数据日志格式如下:1,2268318,pv,1511544070 黑名单用户的定义规则如下: 如果某一件商品被同一用户在1分钟之内点击超过10次,那么此时这个用户就是当前商品的黑名单用户,我们需要将黑名单用户 阅读全文
posted @ 2022-09-08 14:42 jsqup 阅读(73) 评论(0) 推荐(0) 编辑
摘要: ![](https://img2022.cnblogs.com/blog/2487693/202209/2487693-20220908134139595-978773126.png) 阅读全文
posted @ 2022-09-08 13:41 jsqup 阅读(21) 评论(0) 推荐(0) 编辑
摘要: Spark Streaming只能充当Kafka的消费者 Spark Steaming整合Kafka数据,读取Kafka数据有两种方式 1、Receiver(使用Spark中接受器去处理Kafka的数据)方法 连接zookeeper集群读取数据 仅作了解(被淘汰) 2、Direct方法--直连kaf 阅读全文
posted @ 2022-09-08 10:20 jsqup 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 引入pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文
posted @ 2022-09-08 10:13 jsqup 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1. Kafka充当Flume的source数据源,此时也就意味着Flume需要采集Kafka的数据,Flume相当于是kafka的一个消费者 .conf文件(KafkaToConsole.conf) #sources别名:r1 a1.sources = r1 #sink别名:k1 a1.sinks 阅读全文
posted @ 2022-09-08 09:45 jsqup 阅读(211) 评论(0) 推荐(0) 编辑