摘要: 流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream 阅读全文
posted @ 2019-12-25 17:26 我是属车的 阅读(1412) 评论(0) 推荐(0) 编辑
摘要: package com.home.spark.streaming import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkConf import org.apache.s 阅读全文
posted @ 2019-12-25 16:11 我是属车的 阅读(3127) 评论(0) 推荐(0) 编辑
摘要: 1、spark集成的KafkaUtils.createStream已经过期,这个是Spark Integration For Kafka 0.8里集成的。 替代的是Spark Integration For Kafka 0.10,已经没有createStream函数,采用createDirectSt 阅读全文
posted @ 2019-12-25 13:49 我是属车的 阅读(845) 评论(0) 推荐(0) 编辑