spark分区数,task数目,core数,worker节点个数,excutor数量梳理

作者：王燚光
链接：https://www.zhihu.com/question/33270495/answer/93424104
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

梳理一下Spark中关于并发度涉及的几个概念File，Block，Split，Task，Partition，RDD以及节点数、Executor数、core数目的关系。

输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。
当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，注意InputSplit不能跨越文件。
随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。
随后这些具体的Task每个都会被分配到集群上的某个节点的某个Executor去执行。

每个节点可以起一个或多个Executor。
每个Executor由若干core组成，每个Executor的每个core一次只能执行一个Task。
每个Task执行的结果就是生成了目标RDD的一个partiton。

posted @ 2017-11-07 20:04 cctext 阅读(1570) 评论(0) 收藏举报

刷新页面返回顶部

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

spark分区数,task数目,core数,worker节点个数,excutor数量梳理

公告