摘要: RDD 介绍 RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定 阅读全文
posted @ 2018-06-07 20:02 -加勒比海带 阅读(13032) 评论(0) 推荐(0) 编辑