摘要: RDD是Spark中的核心数据模型,一个RDD代表着一个被分区(partition)的只读数据集。 RDD的生成只有两种途径: 一种是来自于内存集合或外部存储系统; 另一种是通过转换操作来自于其他RDD; 一般需要了解RDD的以下五个接口: partition 分区,一个RDD会有一个或者多个分区 阅读全文
posted @ 2020-06-19 21:18 龘人上天 阅读(130) 评论(0) 推荐(0) 编辑