半夜ATM机前看书的那位

导航

2011年8月16日 #

google plus

该文被密码保护。 阅读全文

posted @ 2011-08-16 18:15 zhizhesky 阅读(2) 评论(0) 推荐(0) 编辑

Design, Scale and Performance of MapR's Distribution for Hadoop

摘要: MapR is a complete distribution that is 100%API compatiblewith ApacheHadoop(MapReduce, HDFS and HBase). Design, Scale and Performance of MapR's Distribution for Hadoop View more presentations from mcsrivas 阅读全文

posted @ 2011-08-16 17:40 zhizhesky 阅读(247) 评论(0) 推荐(0) 编辑

hadoop作业调优参数整理及原理(转自淘宝数据 tbdata.org)

摘要: 1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutputBuffer,即上图的buffer in memory),map会将已经产生的部分结果先写入到该buffer中,这个buffer默认是100MB大小,但是这个大小是可以根据job提交时的参数设定来调整的,该参数即为:io. 阅读全文

posted @ 2011-08-16 17:28 zhizhesky 阅读(208) 评论(0) 推荐(0) 编辑