07 2014 档案

摘要:ShuffleMapTask的计算结果保存在哪,随后Stage中的task又是如何知道从哪里去读取的呢,reduceByKey(_ + _)中的combine计算发生在什么地方,本文将为你一一揭晓。 阅读全文
posted @ 2014-07-24 12:58 徽沪一郎 阅读(4211) 评论(0) 推荐(1) 编辑
摘要:本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。 阅读全文
posted @ 2014-07-21 23:36 徽沪一郎 阅读(3039) 评论(0) 推荐(1) 编辑
摘要:上篇博文讲述了如何通过修改源码来查看调用堆栈,尽管也很实用,但每修改一次都需要编译,花费的时间不少,效率不高,而且属于侵入性的修改,不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。 阅读全文
posted @ 2014-07-17 13:47 徽沪一郎 阅读(10692) 评论(4) 推荐(3) 编辑
摘要:今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交互,那如何知道谁是接收方呢? 阅读全文
posted @ 2014-07-05 20:15 徽沪一郎 阅读(4620) 评论(0) 推荐(0) 编辑