07 2019 档案
spark streaming checkpointing windows
摘要:spark streaming的相关概念: spark的核心是创建一个RDD对象,然后对RDD对象进行计算操作等 streaming可以理解为是 一个连续不断的数据流 ,然后将每个固定时间段里的数据构建成一个RDD,然后就会创一连串的RDD流,这就是DStream(streaming的主要操作对象)
阅读全文
spark-shell 中rdd常用方法
摘要:centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu"
阅读全文