摘要:
流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream 阅读全文
摘要:
package com.home.spark.streaming import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkConf import org.apache.s 阅读全文
摘要:
1、spark集成的KafkaUtils.createStream已经过期,这个是Spark Integration For Kafka 0.8里集成的。 替代的是Spark Integration For Kafka 0.10,已经没有createStream函数,采用createDirectSt 阅读全文