2.1.1 windows 下用Eclipse搭建Hadoop2.7开发环境
前言
MapReduce是Hadoop的一个用于进行数据处理的编程模型,我们可以基于MapReduce这个编程模型开发各种语言版本的MapReduce应用程序。譬如,这个程序我们可以选择java、Ruby、Python、C++等各种语言版本进行编写。这篇文章主要用于介绍Windows下搭建Eclipse Hadoop2.7应用程序开发环境,以便使用java语言开发MapReduce应用程序。
一、准备
1.1、准备安装包
win8 操作系统
apache hadoop-2.7.3 集群(1.1.1章节时已将集群搭建)
eclipse (Luna Service Release 2 (4.4.2))
hadoop-common-2.7.1-bin.zip
java安装包(jre-8u131-windows-i586_8.0.1310.11.exe)
hadoop-eclipse-plugin-2.7.0.jar
1.2、安装win8 操作系统(略..)
注:以下所有操作在1.2中安装的win8系统上操作。
1.3、安装jre
双击运行re-8u131-windows-i586_8.0.1310.11.exe,根据安装引导完成安装后,执行java -version命令验证是否安装成功。
C:\Users\hadoop>java -version
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) Client VM (build 25.131-b11, mixed mode, sharing)
1.4、安装eclipse.
将下载好的eclipse安装包解压到本地磁盘即可。
1.5、安装Hadoop
1、将apache hadoop-2.7.3安装包解压到本地磁盘C:\TOOS\。
2、设置环境变量HADOOP_HOME C:\TOOS\hadoop-2.7.3
3、解压 hadoop-common-2.7.1-bin.zip,将解压后所有文件,拷贝到%HADOOP_HOME%\bin目录。并将解压文件中hadoop.dll,拷贝到c:\windows\system32目录中。
1.6、安装Hadoop2.7插件,配置Hadoop installation directory。
1、将下载好的插件hadoop-eclipse-plugin-2.7.0.jar,移动到eclipse安装目录下的plugins文件夹下。
2、创建hadoop win8系统普通登录用户,将系统切换到该用户下。
3、启动eclispe,配置hadoop安装目录和hdfs端口。
如果插件安装成功,打开【Windows】—>【Preferences】后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置hadoop安装路径,然后点击【OK】。

1.7、配置Map/Reduce Locations
1、打开Windows-->Open Perspective-->Other

2、选择Map/Reduce,点击OK,在右下方看到有个Map/Reduce Locations的图标,如下图所示:

3、点击Map/Reduce Location选项卡,点击右边小象图标,打开Hadoop Location配置窗口:输入Location Name,任意名称即可.配置Map/Reduce Master和DFS Mastrer,Host和Port配置成与core-site.xml的设置一致即可。

点击"Finish"按钮,关闭窗口。点击左侧的DFSLocations—>hd0(上一步配置的location name),如能看到user,表示安装成功。

二、新建WordCount项目,测试搭建环境是否成功
2.1、新建WordCount项目
File—>Project,选择Map/Reduce Project,输入项目名称WordCount,然后根据向导点击下一步至完成。
2.2、WordCount项目下建三个类

代码如下:
1、TokenizerMapper.java
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Mapper.Context; public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } }
2、IntSumReducer.java
import java.util.StringTokenizer; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } }
3、WordCount.java
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class WordCount { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: wordcount <in> <out>"); System.exit(2); } Job job = new Job(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } }
2.3、在集群HDFS上创建目录input
[hadoop@Master ~]$ hadoop fs -mkdir /input
2.4、拷贝本地3.txt到HDFS的input里
[hadoop@Master ~]$ hadoop fs -put 3.txt input
重新连接DFS Locations,如下图:

2.5、点击WordCount.java,右键,点击【Run As】—>【Run Configurations】,配置运行参数,即输入和输出文件夹,点击【Run】按钮运行程序。
hdfs://Master:9000/user/hadoop/input hdfs://Master:9000/user/hadoop/output

2.7、程序运行完成后,重新连接DFS Locations,可以从output中查看输出结果。如果可以看到如下图处理结果,那么说明开发环境搭建成功!

三、常见问题解决办法
3.1、eclipse 中运行 Hadoop2.7.3 map reduce程序 出现错误(null) entry in command string: null chmod 0700
解决办法: 解压 hadoop-common-2.7.1-bin.zip,将解压后所有文件,拷贝到%HADOOP_HOME%\bin目录。并将解压文件中hadoop.dll,拷贝到c:\windows\system32目录中。
3.2、org.apache.hadoop.io.nativeio.NativeIO$Windows.access0
解决办法:我们下载对应hadoop源代码,hadoop-2.7.3-src.tar.gz解压,hadoop-2.7.3-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio下NativeIO.java 复制到对应的Eclipse的project,然后修改609行为return true如图所示:


浙公网安备 33010602011771号