Chapter 4. Working with Key/Value Pairs

Chapter4 working with key/value pairs

key/values pairs键值对是Spark中非常常见的一种数据类型(type),RDD有时经常操作键值对数据类型。第四章的第一部分内容就是介绍有关键值对的ETL操作:extract,transform,load。第二部分内容介绍的是Spark中的一种高级特征,分布在多个节点nodespairs RDD布局layout:partioning,即分区。使用可控制的分区,可以降低节点间的通信成本,可以是spark的计算速度,这里使用的实例算法就是PageRank。

一、Creating Pair RDDs

 

posted @ 2016-11-30 19:14  zhangoliver  阅读(176)  评论(0编辑  收藏  举报