随笔分类 - 大数据

hive大数据倾斜总结

摘要：在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的 Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hiv 阅读全文

posted @ 2016-04-15 19:08 邱明成阅读(1308) 评论(0) 推荐(0) 编辑

图解MapReduceMapReduce整体流程图

摘要：1.图解MapReduceMapReduce整体流程图并行读取文本中的内容，然后进行MapReduce操作 Map过程：并行读取三行，对读取的单词进行map操作，每个词都以<key,value>形式生成 reduce操作是对map的结果进行排序，合并，最后得出词频。 2.简单过程： Input: 阅读全文

posted @ 2016-04-15 18:05 邱明成阅读(5611) 评论(0) 推荐(0) 编辑

spark基本概念

摘要：Client：客户端进程，负责提交作业到Master。 Application：Spark Application的概念和Hadoop MapReduce中的类似，指的是用户编写的Spark应用程序，包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码； Cluste 阅读全文

posted @ 2016-03-03 20:49 邱明成阅读(406) 评论(0) 推荐(0) 编辑

Oozie入门

摘要：作者 Boris Lublinsky, Michael Segel ，译者侯伯薇发布于 2011年8月18日 |注意:QCon全球软件开发大会（北京）2016年4月21-23日，了解更多详情！分享到：微博微信FacebookTwitter有道云笔记邮件分享稍后阅读我的阅读清单分享到：微博阅读全文

posted @ 2016-01-22 16:27 邱明成阅读(452) 评论(0) 推荐(0) 编辑

基于Mesos运行Spark

摘要：背景介绍 Spark有多种集群运行模式，例如：Standalone,Yarn,Mesos。下面就说一下如何在Mesos上运行Spark，这也是官方推荐的一种运行方式。在运行Spark之前咱们先简略介绍一下Mesos。 Mesos计算框架是一个集群管理器，提供了有效的、跨分布式的应用或框架的资源隔阅读全文

posted @ 2015-12-22 17:33 邱明成阅读(1793) 评论(0) 推荐(0) 编辑

公告

昵称：邱明成
园龄： 9年6个月
粉丝： 139
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

邱明成

随笔分类 - 大数据

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论