摘要:
问题:输入多个文件,每个文件中有很多个单词,并且都是以空格分隔。然后需要对这些输入文件建索引 输出每个单词在某个文件中出现的次数。比如hello在file1中出现了10次,在file2中出现了4次,那么就输出 hello file1 10 file2 4,以此类推,最后将建好的索引输出到输出文件中。这个程序我已经实现了,需要源码的联系我~~ 阅读全文
摘要:
在mapreduce程序运行的开始阶段,hadoop需要将待处理的输入文件进行分割,按预定义的格式对文件读取等操作,这些操作都在InputFormat中进行。主要工作有以下3个: 1. Validate the input-specification of the job. 2. Split-up the input file(s) into logical InputSplits, each of which is then assigned to an individual Mapper. 3. Provide the RecordReader implementation to be . 阅读全文