摘要: 问题:输入多个文件,每个文件中有很多个单词,并且都是以空格分隔。然后需要对这些输入文件建索引 输出每个单词在某个文件中出现的次数。比如hello在file1中出现了10次,在file2中出现了4次,那么就输出 hello file1 10 file2 4,以此类推,最后将建好的索引输出到输出文件中。这个程序我已经实现了,需要源码的联系我~~ 阅读全文
posted @ 2011-09-30 16:26 glose 阅读(721) 评论(5) 推荐(0) 编辑
摘要: 在mapreduce程序运行的开始阶段,hadoop需要将待处理的输入文件进行分割,按预定义的格式对文件读取等操作,这些操作都在InputFormat中进行。主要工作有以下3个: 1. Validate the input-specification of the job. 2. Split-up the input file(s) into logical InputSplits, each of which is then assigned to an individual Mapper. 3. Provide the RecordReader implementation to be . 阅读全文
posted @ 2011-09-30 16:18 glose 阅读(1270) 评论(0) 推荐(0) 编辑