2014 年 7月随笔档案 - 徽沪一郎

摘要：ShuffleMapTask的计算结果保存在哪，随后Stage中的task又是如何知道从哪里去读取的呢，reduceByKey(_ + _)中的combine计算发生在什么地方，本文将为你一一揭晓。阅读全文

posted @ 2014-07-24 12:58 徽沪一郎阅读(4211) 评论(0) 推荐(1) 编辑

摘要：本文主要讲述在standalone cluster部署模式下，应用(Driver Application)所需要的资源是如何获得，在应用退出时又是如何释放的。阅读全文

posted @ 2014-07-21 23:36 徽沪一郎阅读(3039) 评论(0) 推荐(1) 编辑

摘要：上篇博文讲述了如何通过修改源码来查看调用堆栈，尽管也很实用，但每修改一次都需要编译，花费的时间不少，效率不高，而且属于侵入性的修改，不优雅。本篇讲述如何使用intellij idea来跟踪调试spark源码。阅读全文

posted @ 2014-07-17 13:47 徽沪一郎阅读(10692) 评论(4) 推荐(3) 编辑

摘要：今天不谈Spark中什么复杂的技术实现，只稍为聊聊如何进行代码跟读。众所周知，Spark使用scala进行开发，由于scala有众多的语法糖，很多时候代码跟着跟着就觉着线索跟丢掉了，另外Spark基于Akka来进行消息交互，那如何知道谁是接收方呢？阅读全文

posted @ 2014-07-05 20:15 徽沪一郎阅读(4620) 评论(0) 推荐(0) 编辑

07 2014 档案