随笔分类 -  大数据

摘要:在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均 值能代表的价值降低。Hiv 阅读全文
posted @ 2016-04-15 19:08 邱明成 阅读(1308) 评论(0) 推荐(0) 编辑
摘要:1.图解MapReduceMapReduce整体流程图 并行读取文本中的内容,然后进行MapReduce操作 Map过程:并行读取三行,对读取的单词进行map操作,每个词都以<key,value>形式生成 reduce操作是对map的结果进行排序,合并,最后得出词频。 2.简单过程: Input: 阅读全文
posted @ 2016-04-15 18:05 邱明成 阅读(5611) 评论(0) 推荐(0) 编辑
摘要:Client:客户端进程,负责提交作业到Master。 Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; Cluste 阅读全文
posted @ 2016-03-03 20:49 邱明成 阅读(406) 评论(0) 推荐(0) 编辑
摘要:作者 Boris Lublinsky, Michael Segel ,译者 侯伯薇 发布于 2011年8月18日 |注意:QCon全球软件开发大会(北京)2016年4月21-23日,了解更多详情! 分享到:微博微信FacebookTwitter有道云笔记邮件分享 稍后阅读 我的阅读清单 分享到:微博 阅读全文
posted @ 2016-01-22 16:27 邱明成 阅读(452) 评论(0) 推荐(0) 编辑
摘要:背景介绍 Spark有多种集群运行模式,例如:Standalone,Yarn,Mesos。 下面就说一下如何在Mesos上运行Spark,这也是官方推荐的一种运行方式。 在运行Spark之前咱们先简略介绍一下Mesos。 Mesos计算框架是一个集群管理器,提供了有效的、跨分布式的应用或框架的资源隔 阅读全文
posted @ 2015-12-22 17:33 邱明成 阅读(1793) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示