摘要: 1. 什么是RDD? Resilient Distributed Dataset弹性分布式数据集,能够横跨集群所有节点进行并行计算的分区元素的集合。 2. Spark中两种类型的共享变量 一是广播变量(broadcast variables),用来在所有节点内存中缓存一个值;另外一种是累加器(acc 阅读全文
posted @ 2016-07-21 10:26 郝凡 阅读(1228) 评论(0) 推荐(0) 编辑