随笔分类 - 大数据调优

深入浅出数据仓库中SQL性能优化之Hive篇

摘要：转自：http://www.csdn.net/article/2015-01-13/2823530摘要：Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle，sort等多个阶段，所以针对hive查询的优化可以大致分为针... 阅读全文

posted @ 2016-01-09 01:24 五三中阅读(2736) 评论(0) 推荐(0) 编辑

hive优化之------控制hive任务中的map数和reduce数

摘要：转自http://superlxw1234.iteye.com/blog/1582880一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,... 阅读全文

posted @ 2016-01-08 01:43 五三中阅读(338) 评论(0) 推荐(0) 编辑

[大牛翻译系列]Hadoop 翻译文章索引

摘要：转自：http://www.cnblogs.com/datacloud/p/3604492.html原书章节原书章节题目翻译文章序号翻译文章题目链接4.1JoiningHadoop（1）MapReduce连接：重分区连接（Repartitionjoin）http://www.cnblogs.com/... 阅读全文

posted @ 2015-12-18 16:22 五三中阅读(383) 评论(0) 推荐(0) 编辑

浅析 Hadoop 中的数据倾斜

摘要：转自：http://my.oschina.net/leejun2005/blog/100922最近几次被问到关于数据倾斜的问题，这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分... 阅读全文

posted @ 2015-12-06 15:52 五三中阅读(668) 评论(0) 推荐(0) 编辑

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

摘要：转自：http://blog.jobbole.com/88283/一、来源Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter(Data platform @Twitter)二、观后感2.1 概要... 阅读全文

posted @ 2015-11-29 01:29 五三中阅读(263) 评论(0) 推荐(0) 编辑

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

摘要：转自：http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么？2.作业级别参数如何调优？3.任务及管理员级别有哪些可以调优？Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到... 阅读全文

posted @ 2015-11-06 18:05 五三中阅读(678) 评论(0) 推荐(0) 编辑