摘要: 标签(空格分隔): 学习笔记 Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器)。 RDD RDD是一种具有容错性的基于内存的集群计算方法。 RDD特征: 1. 分区(partition):有一个数据分片 阅读全文
posted @ 2016-09-11 15:23 江湖小妞 阅读(462) 评论(0) 推荐(0) 编辑