hadoop浅尝 第一个hadoop程序
hadoop编程程序员需要完成三个类。
map类,reduce类和主类。
map和reduce类自然是分别完成map和reduce。而主类则负责对这两个类设置job。完成这三个类之后,我们生成一个jar文件。利用这个jar文件完成剩下的工作。
首先,执行 bin/hdfs dfs -put /home/hadoop/test input
这里对意思是将文件/home/hadoop/test文件放入input中。这个input是提前建立好的,指令如下:
bin/hadoop fs –mkdir input
放入input之后,我们执行指令:
bin/hadoop jar /home/hadoop/workspace/test.jar InvertedIndexer input output
/home/hadoop/workspace/test.jar是先前生成的jar文件的地址,input中包含了待处理文件。至于output还有待考察。
需要注意的是,这里的InvertedIndexer就是程序员编写的三个类中的主类的名称。