spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--(视频笔记)
map
通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并
flatMap
通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。
mapPartitions
Iter => iter.filter(_>3)
作用于整个分区(例如hbase表等)进行操作
glom
将每个分区生成数组,将泛型RDD转换为RDD[Array]