摘要: 键值对RDD是Spark中许多操作所需要的常见数据类型。 “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上,可以大大减少应用的通信开销,带来明显的性能提升。 4.1 动机 Spark为pair RDD提供了并行操作各个键或跨节 阅读全文
posted @ 2017-10-24 15:29 右介 阅读(474) 评论(0) 推荐(0) 编辑