随笔分类 - Spark
摘要:Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,
阅读全文
摘要:Spark任务调度机制论述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源,另一
阅读全文
摘要:切分计划 set [0,6) 1 2 3 4 5 6 [6,13) 7 8 9 10 11 12 13 [13,20) 14 15 16 17 18 19 20 [floor((n-1)*(N/P)), floor(n*N/P)) file [0, 6] 1,2,3,4 [7, 12] 5,6,7
阅读全文