摘要: 大多数的 Spark 操作可以用在任意类型的 RDD 上, 但是有一些比较特殊的操作只能用在key value类型的 RDD 上. 这些特殊操作大多都涉及到 shuffle 操作, 比如: 按照 key 分组(group), 聚集(aggregate)等. 在 Spark 中, 这些操作在包含 的 阅读全文
posted @ 2019-12-15 21:36 hyunbar 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 1、union(otherDataSet) 作用 : . 对源 RDD 和参数 RDD 求并集后返回一个新的 RDD 2、subtract(otherDataSet) 作用: 从原 RDD 中减去 原 RDD 和otherDataset 中的共同的部分. 3、intersection(otherDa 阅读全文
posted @ 2019-12-15 19:45 hyunbar 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 1、 map(func) 作用 : 返回一个新的 RDD, 该 RDD 是由原 RDD 的每个元素经过函数转换后的值而组成. 就是对 RDD 中的数据做转换. 创建一个包含1 10的的 RDD,然后将每个元素 2形成新的 RDD 2、mapPartitions(func) 作用 : 类似于map(f 阅读全文
posted @ 2019-12-15 19:28 hyunbar 阅读(368) 评论(0) 推荐(0) 编辑