会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
zx学习玩玩
2015年6月15日
Spark的Straggler深入学习(2):思考Block和Partition的划分问题——以论文为参考
摘要: 一、partition的划分问题 如何划分partition对block数据的收集有很大影响。如果需要根据block来加速task的执行,partition应该满足什么条件?参考思路1:range partition1、出处: IBM DB2 BLU;Google PowerDrill;Shar...
阅读全文
posted @ 2015-06-15 08:51 zx学习玩玩
阅读(3065)
评论(1)
推荐(0)
编辑
2015年5月28日
Spark的Straggler深入学习(1):如何在本地图形监控远程Spark的GC情况——使用java自带的jvisualvm
摘要: 一、本文的目的 Straggler是目前研究的热点,Spark中也存在Straggler的问题。GC问题是总所周知的导致Straggler的重要因素之一,为了了解GC导致的Straggler问题,首先需要学习GC问题以及如何监控Spark的GC。GC问题的讨论比较多了,推荐一篇系列文章用于学习:成...
阅读全文
posted @ 2015-05-28 18:03 zx学习玩玩
阅读(1060)
评论(0)
推荐(0)
编辑
2015年3月31日
Hadoop安装——如何修改端口冲突
摘要: 在一个集群中,尽管是多用户,但是端口是公用的,存在冲突的可能。如果另一个用户已经采用默认配置安装了hadoop,那么当前用户再安装hadoop时,必然会产生端口的冲突。在配置自己的hadoop时,可以自己配置datanode,namenode所需要的端口,避免冲突。下述方法也可以用来解决一类因为端...
阅读全文
posted @ 2015-03-31 19:20 zx学习玩玩
阅读(4910)
评论(0)
推荐(0)
编辑
2015年3月25日
Spark源码学习1.8——ShuffleBlockManager.scala
摘要: shuffleBlockManager继承于Logging,参数为blockManager和shuffleManager。shuffle文件有三个特性:shuffleId,整个shuffle stage所具有的唯一Id;bucketId,输出的partition的Id;fileId,标志着这一组文件...
阅读全文
posted @ 2015-03-25 22:00 zx学习玩玩
阅读(358)
评论(0)
推荐(0)
编辑
Spark源码学习1.7——Master.scala
摘要: master第一步是加载系统定义的环境变量,如worker的超时时间、系统保留的Application数目等;第二步,加载worker的信 息,地址、id等;第三步,加载Application的信息,例如运行地址、等待的Application、完成的Application等;第四步, 加载驱动的信息...
阅读全文
posted @ 2015-03-25 21:59 zx学习玩玩
阅读(229)
评论(0)
推荐(0)
编辑
2015年3月16日
Spark源码学习1.6——Executor.scala
摘要: Executor.scala一、Executor类首先判断本地性,获取slaves的host name(不是IP或者host: port),匹配运行环境为集群或者本地。如果不是本地执行,需要启动一个handler来监控所有的executor进程,避免阻塞。然后,初始化Spark执行环境。向Spark...
阅读全文
posted @ 2015-03-16 11:46 zx学习玩玩
阅读(460)
评论(0)
推荐(0)
编辑
2015年3月5日
Spark源码学习1.4——MapOutputTracker.scala
摘要: 相关类:MapOutputTrackerMessage,GetMapOutputStatuses extends MapPutputTrackerMessage,StopMapOutputTracker extends MapOutputTrackerMessage,MapOutputTracker...
阅读全文
posted @ 2015-03-05 20:14 zx学习玩玩
阅读(1141)
评论(0)
推荐(0)
编辑
Spark源码学习1.5——BlockManager.scala
摘要: 一、BlockResult类该类用来表示返回的匹配的block及其相关的参数。共有三个参数:data:Iterator [Any]。readMethod: DataReadMethod.Value。bytes: Long。实例化InputMetrics类。二、BlockManager类关系的参数有e...
阅读全文
posted @ 2015-03-05 20:14 zx学习玩玩
阅读(450)
评论(0)
推荐(0)
编辑
Spark源码学习1.3——TaskSetManager.scala
摘要: TaskSetManager.scalaTaskSet是指一系列被提交的task,一般是代表特定的stage中丢失的partition。TaskSetManager通过一个TaskSchedulerImpl实体来对TaskSet进行管理。该方法定义了以下参数:EXECUTOR_TASK_BLACKL...
阅读全文
posted @ 2015-03-05 15:50 zx学习玩玩
阅读(934)
评论(0)
推荐(0)
编辑
Spark源码学习1.2——TaskSchedulerImpl.scala
摘要: 许久没有写博客了,没有太多时间,最近陆续将Spark源码的一些阅读笔记传上,接下来要修改Spark源码了。这个类继承于TaskScheduler类,重载了TaskScheduler中的大部分方法,是Task调度的实际操作。1、检测推测执行间隔,最大响应时间,每个task的CPU数。2、指定调度模式S...
阅读全文
posted @ 2015-03-05 15:48 zx学习玩玩
阅读(414)
评论(0)
推荐(0)
编辑
下一页
公告
导航
博客园
首页
新随笔
新文章
联系
订阅
管理