会员
周边
捐助
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
破锅堂
打破砂锅问到底
博客园
首页
新随笔
联系
管理
订阅
2014年9月12日
Spark优化一则 - 减少Shuffle
摘要: 看了Spark Summit 2014的A Deeper Understanding of Spark Internals,视频(要科学上网)详细讲解了Spark的工作原理,Slides的45页给原始算法和优化算法。 破砂锅用自己3节点的Spark集群试验了这个优化算法,并进一步找到更快的算法。测试数据是Sogou实验室的日志文件前10000000条数据。目标是对日志第2列数据,按照第一个字母合并,得到每个首字母有几条记录。
阅读全文
posted @ 2014-09-12 21:34 frankbadpot
阅读(13593)
评论(1)
推荐(1)
编辑
公告