摘要: 1.RDD(Resilient Distributed DataSet)是Spark生态系统中最基本的抽象,代表不可变的、可并行操作的分区元素集合。RDD这个类有RDD系列所有基本的操作,比如map、filter、persist.另外,org.apache.spark.rdd.PairRDDFunc 阅读全文
posted @ 2016-03-09 22:31 一路向前走 阅读(473) 评论(0) 推荐(0) 编辑