BBBBB

随笔分类 -  hadoop

摘要:mapreduce程序效率的瓶颈在于两点: 1:计算机性能 2:I/O操作优化优化无非包括时间性能和空间性能两个方面,存在一下常见的优化策略: 1:输入的文件尽量采用大文件 众多的小文件会导致map数量众多,每个新的map任务都会造成一些性能的损失。所以可以将一些小文件在进行mapreduce操作前进行一些预处理,整合成大文件,或者直接采用ConbinFileInputFormat来作为输入方式,此时hadoop会考虑节点和集群的位置信息,已决定将哪些文件打包到同一个单元之中。 2:合理分配map和reduce任务的数量 通过属性mapred.tasktracker.map... 阅读全文
posted @ 2013-03-10 17:42 如是然 阅读(3079) 评论(0) 推荐(0) 编辑
摘要:hadoop 命令行运行 阅读全文
posted @ 2013-03-10 00:02 如是然 阅读(814) 评论(0) 推荐(0) 编辑
摘要:针对mapreduce的几个重要过程做了说明,并没有详细给出实现,主要目的在于帮大家打通mapreduce的脉络(如果可以的话) 阅读全文
posted @ 2013-01-05 19:59 如是然 阅读(2672) 评论(0) 推荐(1) 编辑
摘要:build hadoop eclipse插件 阅读全文
posted @ 2013-01-03 18:22 如是然 阅读(605) 评论(0) 推荐(1) 编辑