2020 年 5月 29 日随笔档案 - Q1Zhen

2020年5月29日

摘要：一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组，阅读全文

posted @ 2020-05-29 20:34 Q1Zhen 阅读(153) 评论(0) 推荐(0) 编辑

QZhen

公告