摘要: RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,... 阅读全文
posted @ 2015-07-31 20:13 stark_summer 阅读(422) 评论(0) 推荐(0) 编辑
摘要: def main(args: Array[String]) { val sc = new SparkContext("local", "xxx") val inputData = sc.textFile("hdfs://master:8020/data/spark/use... 阅读全文
posted @ 2015-07-31 17:51 stark_summer 阅读(450) 评论(0) 推荐(0) 编辑