摘要: 本文参考:http://www.cnblogs.com/cenyuhai/p/3826227.html在数据流动的整个过程中,最复杂最影响性能的环节,就是 Shuffle 过程,本文将参考大神的博客,根据 Spark-1.5 的代码,再次走读一遍。Shuffle 过程Spark 中最经典的 Shuf... 阅读全文
posted @ 2015-10-12 09:51 徐软件 阅读(326) 评论(0) 推荐(0) 编辑
摘要: http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/大神写的太好了,我就不重复造轮子了。Spark 1.5 与 Spark 0.7 在 Storage 模块的结构几乎一致,改变的地方在于:1. RpcEn... 阅读全文
posted @ 2015-10-07 17:02 徐软件 阅读(271) 评论(0) 推荐(0) 编辑
摘要: Spark Scheduler 模块的文章中,介绍到 Spark 将底层的资源管理和上层的任务调度分离开来,一般而言,底层的资源管理会使用第三方的平台,如 YARN 和 Mesos。为了方便用户测试和使用,Spark 也单独实现了一个简单的资源管理平台,也就是本文介绍的 Deploy 模块。一些有经... 阅读全文
posted @ 2015-10-06 13:16 徐软件 阅读(470) 评论(0) 推荐(0) 编辑
摘要: Scheduler 模块中最重要的两个类是DAGScheduler 和 TaskScheduler。上篇讲了DAGScheduler,这篇讲TaskScheduler。TaskScheduler前面提到,在 SparkContext 初始化的过程中,根据 master 的类型分别创建不同的 Task... 阅读全文
posted @ 2015-10-04 20:18 徐软件 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 在阅读 Spark 源代码的过程中,发现单步调试并不能很好的帮助理解程序。这样的多线程的分布式系统,更好的阅读源代码的方式是依据模块,分别理解。在包 org.apache.spark 下面有很多下一级的包,如 deploy, storage, shuffle, scheduler 等。这就是一个个系... 阅读全文
posted @ 2015-10-03 17:29 徐软件 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 最近在看各种博客,学习 spark 源代码。网上对源代码的分析基本都是基于 0.7, 0.8, 1.0 的代码,而现在的发行版已经是 1.5 了。所以有些代码不大对的上。比如函数 RDD.map()旧版本是:def mapU: ClassTag: RDD[U] = new MappedRDD(thi... 阅读全文
posted @ 2015-10-02 17:37 徐软件 阅读(988) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/jqyp/archive/2010/08/20/1805041.html> 介绍了两种动态代理,一是 java 自带功能,基于 Proxy 和接口,一是 cglib 基于继承。http://www.cnblogs.com/flyoung2008/arch... 阅读全文
posted @ 2015-05-02 18:34 徐软件 阅读(113) 评论(0) 推荐(0) 编辑
摘要: #### 现象弹出 Cannot connect to VMConsole 中的输出是:ERROR: transport error 202: connect failed: Connection refusedERROR: JDWP Transport dt_socket failed to in... 阅读全文
posted @ 2015-02-27 13:16 徐软件 阅读(1116) 评论(0) 推荐(0) 编辑
摘要: 我本是计算机辅助设计方向的研究生,这个暑假毕业后进入了一家公司,工作内容是大数据的分布式计算。之前没有半点基础,近一个半月来,不停的东看西看,总觉得掌握的知识不够完整,更不 solid。忽然间明白,应该找本书认真的读完。争取一个月内赶上节奏。 阅读全文
posted @ 2014-08-20 14:18 徐软件 阅读(222) 评论(0) 推荐(0) 编辑
摘要: > 如果一个类有多个父类,且父类的有相同的函数 f,在子类和父类中调用 super.f 都是按从右到左的调用函数的顺序。> 这个规则名为:Linearization Rules如下的代码```javatrait Base1 { def print() { println("Base1") }}tr... 阅读全文
posted @ 2014-08-07 09:04 徐软件 阅读(519) 评论(0) 推荐(0) 编辑