2012年8月14日
摘要: 今天主要学习了第二章关于MapReduce,澄清了对一些概念的认识。分片:也叫输入分片(input split),是Hadoop将MapReduce的输入数据划分成的等长的小数据块。Hadoop为每一个分片构建一个map任务。一方面,分片越小,负载平衡的质量越好;另一方面,如果分片太小,那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。以前一直认为分片就是block,其实不是。只是对于大多数作业来说,一个合理的分片大小趋向于HDFS的一个块大小。map任务将其输出写入本地硬盘,而非HDFS。reduce任务数量并非由输入数据的大小决定的,而是特别指定的。如果有多个redu 阅读全文
posted @ 2012-08-14 11:51 Ray_8686 阅读(199) 评论(0) 推荐(0) 编辑