@malloc

导航

2019年3月27日 #

Spark菜鸟记录

摘要: 1、RDD[(k,v)] join()优化,join之前会对两个RDD的key做hash,通过网络把相同hash值的数据传到同一个节点,因此对多次join的RDD 做预分区与持久化可提高效率。 map()操作会失去父RDD的信息,因为key值有可能发生改变,但 mapValues()、flatMap 阅读全文

posted @ 2019-03-27 19:39 malloc+ 阅读(239) 评论(0) 推荐(0) 编辑