sparkstreaming - 随笔分类 - jsqup

Kafka、Flume、SparkStreaming的整合案例(电商网站的黑名单统计)

摘要：背景：电商网站用户在网站的每次行为都会以日志数据的形式加以记录到日志文件中，其中用户的行为数据日志格式如下：1,2268318,pv,1511544070 黑名单用户的定义规则如下：如果某一件商品被同一用户在1分钟之内点击超过10次，那么此时这个用户就是当前商品的黑名单用户，我们需要将黑名单用户阅读全文

posted @ 2022-09-08 14:42 jsqup 阅读(132) 评论(0) 推荐(0)

Kafka和Spark Streaming实时计算框架整合说明

摘要：Spark Streaming只能充当Kafka的消费者 Spark Steaming整合Kafka数据，读取Kafka数据有两种方式 1、Receiver（使用Spark中接受器去处理Kafka的数据）方法连接zookeeper集群读取数据仅作了解（被淘汰） 2、Direct方法--直连kaf 阅读全文

posted @ 2022-09-08 10:20 jsqup 阅读(59) 评论(0) 推荐(0)

sparkstreming整合kafka(Spark Streaming相当于是Kafka的一个消费者)

摘要：引入pom依赖 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance 阅读全文

posted @ 2022-09-08 10:13 jsqup 阅读(102) 评论(0) 推荐(0)

sparkstreaming行动算子

摘要：查看 // 默认是前10条 print(num) 保存数据一批次产生一个文件 package SparkStreaming.action import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.DStr 阅读全文

posted @ 2022-09-02 13:44 jsqup 阅读(86) 评论(0) 推荐(0)

sparkstreaming转换算子--窗口函数

摘要：window 画图理解说明 countByWindow 对每个滑动窗口的数据执行count操作 reduceByWindow 对每个滑动窗口的数据执行reduce操作 reduceByKeyAndWindow 对每个滑动窗口的数据执行reduceByKey操作 countByValueAndWin 阅读全文

posted @ 2022-09-02 12:42 jsqup 阅读(171) 评论(0) 推荐(0)

SparkStreaming中的转换算子2--有状态的转换算子updateStateByKey

摘要：将之前批次的状态保存， package SparkStreaming.trans import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.stream 阅读全文

posted @ 2022-09-02 12:13 jsqup 阅读(40) 评论(0) 推荐(0)

SparkStreaming中的转换算子1

摘要：转换算子1 map,flatMap RDD支持的转换算子DStream大部分都是支持的 map、flatMap、filter、distinct、union、join、reduceByKey...... RDD中部分行动算子DStream会当作转换算子使用，算子的执行逻辑是一样的 package Sp 阅读全文

posted @ 2022-09-02 11:57 jsqup 阅读(36) 评论(0) 推荐(0)

数据源:flume采集到的端口

摘要：推送式将flume采集的数据主动推送给Spark程序，容易导致Spark程序接受数据出问题，推送式整合是基于avro端口下沉地方式完成引入SparkStreaming和Flume整合的依赖 <dependency> <groupId>org.apache.spark</groupId> <art 阅读全文

posted @ 2022-08-31 19:45 jsqup 阅读(135) 评论(0) 推荐(0)

sparkstreaming的创建方式及运行流程及注意事项

摘要：sparkstreaming创建有两种方式 1. 借助SparkConf对象创建 val conf = new SparkConf().setAppName("streamingContext").setMaster("local[4]") /** * streamingcontext第一种创建方式阅读全文

posted @ 2022-08-31 16:47 jsqup 阅读(208) 评论(0) 推荐(0)

处理不同的数据源(端口，HDFS)

摘要：端口 // 地址，端口号，级别(将数据存储在所设置的级别中，这里设置级别为spark的内存) val ds: DStream[String] = ssc.socketTextStream("node1", 44444, StorageLevel.MEMORY_ONLY) 读取HDFS中的数据 imp 阅读全文

posted @ 2022-08-31 16:29 jsqup 阅读(32) 评论(0) 推荐(0)

sparkstreaming数据源端口号的开启及项目创建需要导入的依赖

摘要：安装nc yum install -y nc 说明 -l, --listen Bind and listen for incoming connections -k, --keep-open Accept multiple connections in listen mode 使用 nc -lk 端阅读全文

posted @ 2022-08-31 15:17 jsqup 阅读(41) 评论(0) 推荐(0)

spark中各个技术点中的依赖(pom.xml)

摘要：mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文

posted @ 2022-08-30 08:23 jsqup 阅读(580) 评论(0) 推荐(0)

RDD，DataFrame，DataSet及三者之间的转换

摘要：RDD: 以Person为类型参数，但是Spark框架本身不了解Person类的内部结构。 DataFrame: DataFrame每一行的类型固定为Row, 每一列的值没法直接访问，只有通过解析才能获取各个字段的值。 DataSet: DataFrame也可以叫DataSet[Row]，每一行类型阅读全文

posted @ 2022-08-25 22:49 jsqup 阅读(208) 评论(0) 推荐(0)

访问端口总结

摘要：||启动方式|访问端口| |--|--|--| |HDFS|start-dfs.sh|NameNode(9000 API操作；50070 web访问端口)| |||DataNode(50010 dn和nn通信的端口；50075(datanode的web访问端口)| |||snn(50090 snn的阅读全文

posted @ 2022-08-19 12:06 jsqup 阅读(77) 评论(0) 推荐(0)

jsqup

随笔分类 - sparkstreaming

公告