摘要: 一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, 阅读全文
posted @ 2020-05-29 20:34 Q1Zhen 阅读(153) 评论(0) 推荐(0) 编辑