hadoop - 随笔分类 - 如是然

hadoop mapreduce 优化

摘要：mapreduce程序效率的瓶颈在于两点： 1：计算机性能 2：I/O操作优化优化无非包括时间性能和空间性能两个方面，存在一下常见的优化策略： 1：输入的文件尽量采用大文件众多的小文件会导致map数量众多，每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理，整合成大文件，或者直接采用ConbinFileInputFormat来作为输入方式，此时hadoop会考虑节点和集群的位置信息，已决定将哪些文件打包到同一个单元之中。 2：合理分配map和reduce任务的数量通过属性mapred.tasktracker.map... 阅读全文

posted @ 2013-03-10 17:42 如是然阅读(3081) 评论(0) 推荐(0) 编辑

hadoop 命令行运行

摘要：hadoop 命令行运行阅读全文

posted @ 2013-03-10 00:02 如是然阅读(815) 评论(0) 推荐(0) 编辑

hadoop mapreduce 过程详解

摘要：针对mapreduce的几个重要过程做了说明，并没有详细给出实现，主要目的在于帮大家打通mapreduce的脉络（如果可以的话）阅读全文

posted @ 2013-01-05 19:59 如是然阅读(2672) 评论(0) 推荐(1) 编辑

hadoop eclipse插件

摘要：build hadoop eclipse插件阅读全文

posted @ 2013-01-03 18:22 如是然阅读(605) 评论(0) 推荐(1) 编辑

随笔分类 - hadoop

公告