(转载)Hadoop示例程序WordCount详解
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了。
其实WordCount并不难,只是一下子接触到了很多的API,有一些陌生,还有就是很传统的开发相比,map-reduce确实是一种新的编程理念,为了让各位新手少走弯路,我将WordCount中的很多API都做了注释,其实这些方法搞明白了以后程序就很简单了,无非就是将一句话分词,先用map处理再用reduce处理,最后再main函数中设置一些信息,然后run(),程序就结束了。好了,不废话,直接上代码:
1 package com.felix; 2 3 import java.io.IOException; 4 import java.util.Iterator; 5 import java.util.StringTokenizer; 6 7 import org.apache.hadoop.fs.Path; 8 import org.apache.hadoop.io.IntWritable; 9 import org.apache.hadoop.io.LongWritable; 10 import org.apache.hadoop.io.Text; 11 import org.apache.hadoop.mapred.FileInputFormat; 12 import org.apache.hadoop.mapred.FileOutputFormat; 13 import org.apache.hadoop.mapred.JobClient; 14 import org.apache.hadoop.mapred.JobConf; 15 import org.apache.hadoop.mapred.MapReduceBase; 16 import org.apache.hadoop.mapred.Mapper; 17 import org.apache.hadoop.mapred.OutputCollector; 18 import org.apache.hadoop.mapred.Reducer; 19 import org.apache.hadoop.mapred.Reporter; 20 import org.apache.hadoop.mapred.TextInputFormat; 21 import org.apache.hadoop.mapred.TextOutputFormat; 22 /** 23 * 24 * 描述:WordCount explains by Felix 25 * @author Hadoop Dev Group 26 */ 27 public class WordCount 28 { 29 30 /** 31 * MapReduceBase类:实现了Mapper和Reducer接口的基类(其中的方法只是实现接口,而未作任何事情) 32 * Mapper接口: 33 * WritableComparable接口:实现WritableComparable的类可以相互比较。所有被用作key的类应该实现此接口。 34 * Reporter 则可用于报告整个应用的运行进度,本例中未使用。 35 * 36 */ 37 public static class Map extends MapReduceBase implements 38 Mapper<LongWritable, Text, Text, IntWritable> 39 { 40 /** 41 * LongWritable, IntWritable, Text 均是 Hadoop 中实现的用于封装 Java 数据类型的类,这些类实现了WritableComparable接口, 42 * 都能够被串行化从而便于在分布式环境中进行数据交换,你可以将它们分别视为long,int,String 的替代品。 43 */ 44 private final static IntWritable one = new IntWritable(1); 45 private Text word = new Text(); 46 47 /** 48 * Mapper接口中的map方法: 49 * void map(K1 key, V1 value, OutputCollector<K2,V2> output, Reporter reporter) 50 * 映射一个单个的输入k/v对到一个中间的k/v对 51 * 输出对不需要和输入对是相同的类型,输入对可以映射到0个或多个输出对。 52 * OutputCollector接口:收集Mapper和Reducer输出的<k,v>对。 53 * OutputCollector接口的collect(k, v)方法:增加一个(k,v)对到output 54 */ 55 public void map(LongWritable key, Text value, 56 OutputCollector<Text, IntWritable> output, Reporter reporter) 57 throws IOException 58 { 59 String line = value.toString(); 60 StringTokenizer tokenizer = new StringTokenizer(line); 61 while (tokenizer.hasMoreTokens()) 62 { 63 word.set(tokenizer.nextToken()); 64 output.collect(word, one); 65 } 66 } 67 } 68 69 public static class Reduce extends MapReduceBase implements 70 Reducer<Text, IntWritable, Text, IntWritable> 71 { 72 public void reduce(Text key, Iterator<IntWritable> values, 73 OutputCollector<Text, IntWritable> output, Reporter reporter) 74 throws IOException 75 { 76 int sum = 0; 77 while (values.hasNext()) 78 { 79 sum += values.next().get(); 80 } 81 output.collect(key, new IntWritable(sum)); 82 } 83 } 84 85 public static void main(String[] args) throws Exception 86 { 87 /** 88 * JobConf:map/reduce的job配置类,向hadoop框架描述map-reduce执行的工作 89 * 构造方法:JobConf()、JobConf(Class exampleClass)、JobConf(Configuration conf)等 90 */ 91 JobConf conf = new JobConf(WordCount.class); 92 conf.setJobName("wordcount"); //设置一个用户定义的job名称 93 94 conf.setOutputKeyClass(Text.class); //为job的输出数据设置Key类 95 conf.setOutputValueClass(IntWritable.class); //为job输出设置value类 96 97 conf.setMapperClass(Map.class); //为job设置Mapper类 98 conf.setCombinerClass(Reduce.class); //为job设置Combiner类 99 conf.setReducerClass(Reduce.class); //为job设置Reduce类 100 101 conf.setInputFormat(TextInputFormat.class); //为map-reduce任务设置InputFormat实现类 102 conf.setOutputFormat(TextOutputFormat.class); //为map-reduce任务设置OutputFormat实现类 103 104 /** 105 * InputFormat描述map-reduce中对job的输入定义 106 * setInputPaths():为map-reduce job设置路径数组作为输入列表 107 * setInputPath():为map-reduce job设置路径数组作为输出列表 108 */ 109 FileInputFormat.setInputPaths(conf, new Path(args[0])); 110 FileOutputFormat.setOutputPath(conf, new Path(args[1])); 111 112 JobClient.runJob(conf); //运行一个job 113 } 114 }
(文章转自:http://www.iteye.com/topic/606962)