摘要: 一句话说,在Spark中对数据的操作其实就是对RDD的操作,而对RDD的操作不外乎创建、转换、调用求值。 什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集。 它定义了如何在集群的每个节点上操作数据的一系列命令,而不是指真实的数据,Spark通过RD 阅读全文
posted @ 2017-02-16 13:35 X.Jan 阅读(2055) 评论(2) 推荐(0) 编辑