07 2019 档案
spark streaming checkpointing windows
摘要:spark streaming的相关概念: spark的核心是创建一个RDD对象,然后对RDD对象进行计算操作等 streaming可以理解为是 一个连续不断的数据流 ,然后将每个固定时间段里的数据构建成一个RDD,然后就会创一连串的RDD流,这就是DStream(streaming的主要操作对象) 阅读全文
posted @ 2019-07-29 15:03 庭明 阅读(462) 评论(0) 推荐(0) 编辑
spark-shell 中rdd常用方法
摘要:centos 7.2 spark 2.3.3 scala 2.11.11 java 1.8.0_202-ea spark-shell中为scala语法格式 1.distinct 去重 val c = sc.parallerlize(List("Gnu","Cat","Rat","Dog","Gnu" 阅读全文
posted @ 2019-07-04 20:43 庭明 阅读(511) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示