摘要: 1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错... 阅读全文
posted @ 2015-09-16 17:32 【雨歌】 阅读(1664) 评论(0) 推荐(1) 编辑