随笔分类 -  大数据调优

摘要:转自:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针... 阅读全文
posted @ 2016-01-09 01:24 五三中 阅读(2736) 评论(0) 推荐(0) 编辑
摘要:转自http://superlxw1234.iteye.com/blog/1582880一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,... 阅读全文
posted @ 2016-01-08 01:43 五三中 阅读(338) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop(1)MapReduce连接:重分区连接(Repartitionjoin)http://www.cnblogs.com/... 阅读全文
posted @ 2015-12-18 16:22 五三中 阅读(383) 评论(0) 推荐(0) 编辑
摘要:转自:http://my.oschina.net/leejun2005/blog/100922最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分... 阅读全文
posted @ 2015-12-06 15:52 五三中 阅读(668) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.jobbole.com/88283/一、来源Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter(Data platform @Twitter)二、观后感2.1 概要... 阅读全文
posted @ 2015-11-29 01:29 五三中 阅读(263) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么?2.作业级别参数如何调优?3.任务及管理员级别有哪些可以调优?Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到... 阅读全文
posted @ 2015-11-06 18:05 五三中 阅读(678) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示