2013 年 11月 4 日随笔档案 - LifeStudio

2013年11月4日

摘要：默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操作来分区。输入文件：文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。这些文件的格式可以是任意的；我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或其它一些格式。这些文件会很大—数十G或更大。小文件与CombineFileInputFormat Hadoop在处理大量小文件时的性能稍微逊色一些，一个原因是Fi 阅读全文

posted @ 2013-11-04 16:29 LifeStudio 阅读(4206) 评论(0) 推荐(0) 编辑