随笔分类 -  Spark

摘要:Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下, 阅读全文
posted @ 2022-09-04 00:24 Avery_rainys 阅读(94) 评论(0) 推荐(0) 编辑
摘要:Spark任务调度机制论述 在生产环境下,Spark集群的部署方式一般为YARN-Cluster模式。 Driver线程主要是初始化SparkContext对象,准备运行所需的上下文,然后一方面保持与ApplicationMaster的RPC连接,通过ApplicationMaster申请资源,另一 阅读全文
posted @ 2022-09-03 16:35 Avery_rainys 阅读(371) 评论(0) 推荐(0) 编辑
摘要:切分计划 set [0,6) 1 2 3 4 5 6 [6,13) 7 8 9 10 11 12 13 [13,20) 14 15 16 17 18 19 20 [floor((n-1)*(N/P)), floor(n*N/P)) file [0, 6] 1,2,3,4 [7, 12] 5,6,7 阅读全文
posted @ 2022-08-26 21:55 Avery_rainys 阅读(27) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示