摘要:
已知用户表t_user, uid int 用户id 订单表:t_orderoid int 订单iduid int 用户idotime date 订单时间Amount double 订单金额其中用户表和订单表是一对多的关系 需求: 结果集要求:计算在2018年1月下过订单,2月份没有下过订单的用户在3 阅读全文
摘要:
package SparkStreaming import java.util import redis.clients.jedis.{Jedis, JedisPool, JedisPoolConfig} /** * Created by 古城小巷少年 on 2020-01-03 15:53 * j 阅读全文
摘要:
package SparkStreaming import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serializer.StringDecoder import kafk 阅读全文
摘要:
package SparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming.kafka.KafkaUtils im 阅读全文
摘要:
spark-streaming对接kafka有两种方式:1.基于receiver的方式,属于高级API,简单但是效率低,容易丢失数据(可以设置WAL)。它的原理是:receiver从kafka拉取数据存储到executor的内存中,spark-streaming启动job处理数据。偏移量保存在zoo 阅读全文
摘要:
参数:(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U) 1. 作用:在kv对的RDD中,,按key将value进行分组合并,合并时,将每个value和初始值作为seq函数的参数,进行计算 阅读全文
摘要:
1. 参数:(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U) 2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。 阅读全文
摘要:
1)A list of partitionsRDD由很多partition构成(block块对应partition),在spark中,计算式,有多少partition就对应有多少个task来执行。默认一个块block对应一个split,split的大小和block大小一致。2)A function 阅读全文
摘要:
广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用。比如,如果你的应用需要向所有节点发送一个较大的只读查询表,甚至是机器学习算法中的一个很大的特征向量,广播变量用起来都很顺手。 在多个并行操作中使用同一个变量,但是 Spark会为每个任务分别发送。 阅读全文
摘要:
数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。 样本如下: 1516609143867 6 7 64 16 1516609143869 9 4 75 18 1516609143869 1 7 87 12 package Spark02 import org.apache.spark 阅读全文