摘要: 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输 阅读全文
posted @ 2019-09-07 20:30 北漂屌丝 阅读(277) 评论(0) 推荐(0) 编辑