摘要: 已知用户表t_user, uid int 用户id 订单表:t_orderoid int 订单iduid int 用户idotime date 订单时间Amount double 订单金额其中用户表和订单表是一对多的关系 需求: 结果集要求:计算在2018年1月下过订单,2月份没有下过订单的用户在3 阅读全文
posted @ 2020-08-18 17:33 Lucas_zhao 阅读(153) 评论(0) 推荐(0) 编辑
摘要: package SparkStreaming import java.util import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} /** * Created by 古城小巷少年 on 2020-01-03 15:53 * j 阅读全文
posted @ 2020-01-03 16:25 Lucas_zhao 阅读(225) 评论(0) 推荐(0) 编辑
摘要: package SparkStreaming import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import kafk 阅读全文
posted @ 2020-01-03 13:28 Lucas_zhao 阅读(863) 评论(0) 推荐(0) 编辑
摘要: package SparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.kafka.KafkaUtils im 阅读全文
posted @ 2020-01-03 13:26 Lucas_zhao 阅读(324) 评论(0) 推荐(0) 编辑
摘要: spark-streaming对接kafka有两种方式:1.基于receiver的方式,属于高级API,简单但是效率低,容易丢失数据(可以设置WAL)。它的原理是:receiver从kafka拉取数据存储到executor的内存中,spark-streaming启动job处理数据。偏移量保存在zoo 阅读全文
posted @ 2020-01-03 13:24 Lucas_zhao 阅读(959) 评论(0) 推荐(0) 编辑
摘要: 参数:(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U) 1. 作用:在kv对的RDD中,,按key将value进行分组合并,合并时,将每个value和初始值作为seq函数的参数,进行计算 阅读全文
posted @ 2019-12-26 14:23 Lucas_zhao 阅读(402) 评论(0) 推荐(0) 编辑
摘要: 1. 参数:(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U) 2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。 阅读全文
posted @ 2019-12-26 12:30 Lucas_zhao 阅读(467) 评论(0) 推荐(0) 编辑
摘要: 1)A list of partitionsRDD由很多partition构成(block块对应partition),在spark中,计算式,有多少partition就对应有多少个task来执行。默认一个块block对应一个split,split的大小和block大小一致。2)A function 阅读全文
posted @ 2019-12-25 14:44 Lucas_zhao 阅读(1025) 评论(0) 推荐(0) 编辑
摘要: 广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。 在多个并行操作中使用同一个变量,但是 Spark会为每个任务分别发送。 阅读全文
posted @ 2019-12-20 15:15 Lucas_zhao 阅读(789) 评论(0) 推荐(0) 编辑
摘要: 数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark 阅读全文
posted @ 2019-12-19 18:02 Lucas_zhao 阅读(768) 评论(0) 推荐(0) 编辑