herman很慢

导航

2018年8月1日 #

Spark RDD学习笔记

摘要: (resilient distributed dataset,RDD)是一个非常重要的分布式数据架构,即弹性分布式数据集。 它是逻辑集中的实体,在集群中的多台机器上进行了数据分 区。通过对多台机器上不同RDD分区的控制,就能够减少机器之间的数据重排(data shuffling)。Spark提供了“ 阅读全文

posted @ 2018-08-01 16:04 herman很慢 阅读(214) 评论(0) 推荐(0) 编辑