摘要: 介绍: RDD--Resilient Distributed Dataset Spark中RDD是一个不可变的分布式对象集合。每个RDD被分为多个分区,这些分区运行在集群的不同的节点上。RDD可以包含Python、Java、Scala中的任意类型的对象,以及自定义的对象。 创建RDD的两种方法: 1 阅读全文
posted @ 2016-06-22 22:42 grufield 阅读(5158) 评论(0) 推荐(0) 编辑