摘要:
1)mapPartionWithIndex(func) 设置分区,并且查看每个分区中存放的元素 查看每个分区中元素 需要传递函数作为参数 val func = (index:Int,iter:Iterator[(Int)]) => {iter.toList.map(x => "partID:" + 阅读全文
摘要:
1:什么是RDD? RDD(Resilient Distributed DataSet)是分布式数据集。RDD是Spark最基本的 数据的抽象。 scala中的集合。RDD相当于一个不可变、可分区、里面的元素可以并行计算的集合。 RDD特点:具有数据流模型的特点 自动容错 位置感知调度 可伸缩性 R 阅读全文