摘要: 1)mapPartionWithIndex(func) 设置分区,并且查看每个分区中存放的元素 查看每个分区中元素 需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文
posted @ 2019-06-20 17:15 大魔王阿黎 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1:什么是RDD? RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的 数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点:具有数据流模型的特点 自动容错 位置感知调度 可伸缩性 R 阅读全文
posted @ 2019-06-20 17:09 大魔王阿黎 阅读(237) 评论(0) 推荐(0) 编辑