过雁 - 博客园

公告

2015年1月30日

spark 2015 发展方向

摘要： https://www.youtube.com/watch?v=YWppYPWznSQ Databrick的spark 2015规划聚会的视频，看起来今年会在SQL和MLlib上发力多一点。来自为知笔记(Wiz) 阅读全文

posted @ 2015-01-30 10:23 过雁阅读(225) 评论(0) 推荐(0) 编辑

2015年1月27日

摘要： http://docs.scala-lang.org/overviews/core/futures.html Futures and PromisesBy: Philipp Haller, Aleksandar Prokopec, Heather Miller, Viktor Klang, Roland Kuhn, and Vojin JovanovicIntroductionFutures ... 阅读全文

posted @ 2015-01-27 17:02 过雁阅读(401) 评论(0) 推荐(0) 编辑

spark 笔记 16： BlockManager

摘要：先看一下原理性的文章：http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/，http://jerryshao.me/architecture/2013/10/08/spark-storage-module-analysis/ , 另外，spark的存储使用了Segment File的概念（http:... 阅读全文

posted @ 2015-01-27 16:20 过雁阅读(454) 评论(0) 推荐(0) 编辑

spark中使用的内存文件系统-Tachyon FS 简介

摘要：转自：http://blog.csdn.net/u014252240/article/details/41810849发布人：南京大学PASA大数据实验室顾荣1. Tachyon是什么Tachyon（/'tæki:ˌɒn/ 意为超光速粒子）是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。Tachyon诞生... 阅读全文

posted @ 2015-01-27 10:02 过雁阅读(1394) 评论(0) 推荐(0) 编辑

2015年1月26日

spark 笔记 15: ShuffleManager，shuffle map两端的stage/task的桥梁

摘要：无论是Hadoop还是spark，shuffle操作都是决定其性能的重要因素。在不能减少shuffle的情况下，使用一个好的shuffle管理器也是优化性能的重要手段。ShuffleManager的主要功能是在task直接传递数据，所以getWriter和getReader是它的主要接口。大流程： 1）需求方：当一个Stage依赖于一个shuffleMap的结果，那它在DAG分解的时候就能识... 阅读全文

posted @ 2015-01-26 00:33 过雁阅读(840) 评论(0) 推荐(0) 编辑

2015年1月25日

spark 笔记 14: spark中的delay scheduling实现

摘要：延迟调度算法的实现是在TaskSetManager类中的，它通过将task存放在四个不同级别的hash表里，当有可用的资源时，resourceOffer函数的参数之一（maxLocality）就是这些资源的最大（或者最优）locality级别，如果存在task满足资源的locality，那从最优级别的hash表。也就是task和excutor都有loclity级别，如果能找到匹配的task，那从匹... 阅读全文

posted @ 2015-01-25 22:31 过雁阅读(1143) 评论(0) 推荐(0) 编辑

spark 笔记 13: 再看DAGScheduler，stage状态更新流程

摘要：当某个task完成后，某个shuffle Stage X可能已完成，那么就可能会一些仅依赖Stage X的Stage现在可以执行了，所以要有响应task完成的状态更新流程。=======================DAG task完成后的更新流程===================->CoarseGrainedSchedulerBackend::receiveWithLogging --调... 阅读全文

posted @ 2015-01-25 22:29 过雁阅读(498) 评论(0) 推荐(0) 编辑

spark 笔记 12: Executor，task最后的归宿

摘要： spark的Executor是执行task的容器。和java的executor概念类似。===================start executor runs task============================->CoarseGrainedExecutorBackend::receiveWithLogging --接收CoarseGrainedSchedulerBackend发... 阅读全文

posted @ 2015-01-25 01:55 过雁阅读(839) 评论(0) 推荐(0) 编辑

spark 笔记 11: SchedulingAlgorithm 两种调度算法的优先级比较

摘要：调度算法的最基本工作之一，就是比较两个可执行的task的优先级。spark提供的FIFO和FAIR的优先级比较在SchedulingAlgorithm这个接口体现。FIFO:--计算优先级的差。注意，在程序中，大部分时候是优先级的数字越小，它优先级越高--如果优先级相同，那么stage编号越靠前，优先级越高--如果优先级字段和stage id都相同，那么s2比s1更优先。（有这种情况？）FAIR... 阅读全文

posted @ 2015-01-25 00:35 过雁阅读(1245) 评论(0) 推荐(0) 编辑

spark 笔记 10: TaskScheduler相关

摘要：任务调度器的接口类。应用程序可以定制自己的调度器来执行。当前spark只实现了一个任务调度器TaskSchedulerImpl===================task scheduler begin====================-> TaskSchedulerImpl::submitTasks(taskSet: TaskSet) 处理接受task，它做了同步操作。 -> new ... 阅读全文

posted @ 2015-01-25 00:33 过雁阅读(1193) 评论(0) 推荐(0) 编辑