spark RDD 中 transformation的map、flatMap、mapPartitions、glom详解--(视频笔记)

map
通过自定义函数 f:T->u 将元数据T转换为u,不会将split进行合并

flatMap
通过自定义函数 f:T->u 进行数据变换,并将拆分后的小集合合并成一个大集合。

mapPartitions
Iter => iter.filter(_>3)
作用于整个分区(例如hbase表等)进行操作

glom
将每个分区生成数组,将泛型RDD转换为RDD[Array]

posted @ 2015-12-28 19:30  逸新  阅读(394)  评论(0编辑  收藏  举报