07 2014 档案
摘要:ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,reduceByKey(_ + _)中的combine计算发生在什么地方,本文将为你一一揭晓。
阅读全文
摘要:本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。
阅读全文
摘要:上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。
阅读全文
摘要:今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢?
阅读全文