摘要: 梳理一下Spark中关于并发度涉及的几个概念: 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意 阅读全文
posted @ 2020-05-04 17:14 abc十号 阅读(627) 评论(1) 推荐(0) 编辑
摘要: 一、共性 1.1、RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说,一个 RDD 就是你的数据的一个不可变的分布式元素集合,在集群中跨节点分布,可以通过若干提供了转换和处理的底层 API 进行并行处理。关于RDD的详细介绍可以参考这篇文章:https://www 阅读全文
posted @ 2020-05-04 16:46 abc十号 阅读(1007) 评论(0) 推荐(0) 编辑