2.1.1 windows 下用Eclipse搭建Hadoop2.7开发环境

前言

     MapReduce是Hadoop的一个用于进行数据处理的编程模型,我们可以基于MapReduce这个编程模型开发各种语言版本的MapReduce应用程序。譬如,这个程序我们可以选择java、Ruby、Python、C++等各种语言版本进行编写。这篇文章主要用于介绍Windows下搭建Eclipse Hadoop2.7应用程序开发环境,以便使用java语言开发MapReduce应用程序。

一、准备

1.1、准备安装包

      win8 操作系统

      apache  hadoop-2.7.3  集群(1.1.1章节时已将集群搭建

      eclipse (Luna Service Release 2 (4.4.2))

      hadoop-common-2.7.1-bin.zip

      java安装包(jre-8u131-windows-i586_8.0.1310.11.exe)

      hadoop-eclipse-plugin-2.7.0.jar

1.2、安装win8 操作系统(略..)


注:以下所有操作在1.2中安装的win8系统上操作。

1.3、安装jre

       双击运行re-8u131-windows-i586_8.0.1310.11.exe,根据安装引导完成安装后,执行java -version命令验证是否安装成功。    

C:\Users\hadoop>java -version
java version "1.8.0_131"
Java(TM) SE Runtime Environment (build 1.8.0_131-b11)
Java HotSpot(TM) Client VM (build 25.131-b11, mixed mode, sharing)

1.4、安装eclipse.
       将下载好的eclipse安装包解压到本地磁盘即可。

1.5、安装Hadoop
       1、将apache  hadoop-2.7.3安装包解压到本地磁盘C:\TOOS\。

       2、设置环境变量HADOOP_HOME  C:\TOOS\hadoop-2.7.3

       3、解压  hadoop-common-2.7.1-bin.zip,将解压后所有文件,拷贝到%HADOOP_HOME%\bin目录。并将解压文件中hadoop.dll,拷贝到c:\windows\system32目录中。

1.6、安装Hadoop2.7插件,配置Hadoop installation directory。

1、将下载好的插件hadoop-eclipse-plugin-2.7.0.jar,移动到eclipse安装目录下的plugins文件夹下。

2、创建hadoop win8系统普通登录用户,将系统切换到该用户下。

3、启动eclispe,配置hadoop安装目录和hdfs端口。

如果插件安装成功,打开【Windows】—>【Preferences】后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置hadoop安装路径,然后点击【OK】。

       

1.7、配置Map/Reduce Locations

     1、打开Windows-->Open Perspective-->Other

    

    2、选择Map/Reduce,点击OK,在右下方看到有个Map/Reduce Locations的图标,如下图所示:

     

     3、点击Map/Reduce Location选项卡,点击右边小象图标,打开Hadoop Location配置窗口:输入Location Name,任意名称即可.配置Map/Reduce Master和DFS Mastrer,Host和Port配置成与core-site.xml的设置一致即可。
      

     点击"Finish"按钮,关闭窗口。点击左侧的DFSLocations—>hd0(上一步配置的location name),如能看到user,表示安装成功。

      

二、新建WordCount项目,测试搭建环境是否成功

2.1、新建WordCount项目

        File—>Project,选择Map/Reduce Project,输入项目名称WordCount,然后根据向导点击下一步至完成。

        

2.2、WordCount项目下建三个类

        

         代码如下:

         1、TokenizerMapper.java

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Mapper.Context;

public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>
{
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException 
    {
        StringTokenizer itr = new StringTokenizer(value.toString());
        while (itr.hasMoreTokens()) 
        {
            word.set(itr.nextToken());
            context.write(word, one);            
        }
    }
}
View Code

          2、IntSumReducer.java

import java.util.StringTokenizer;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable(); 
    public void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException 
    {
        int sum = 0;
        for (IntWritable val : values)
        {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
        }
    }
View Code

          3、WordCount.java

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;


public class WordCount {
    public static void main(String[] args) throws Exception {
    
        Configuration conf = new Configuration();
    
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    
        if (otherArgs.length != 2) {
    
            System.err.println("Usage: wordcount <in> <out>");
        
            System.exit(2);
        
        }
    
        Job job = new Job(conf, "word count");
    
        job.setJarByClass(WordCount.class);
    
        job.setMapperClass(TokenizerMapper.class);

        job.setCombinerClass(IntSumReducer.class);

        job.setReducerClass(IntSumReducer.class);
    
        job.setOutputKeyClass(Text.class);
    
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }    
}
View Code

2.3、在集群HDFS上创建目录input

    [hadoop@Master ~]$ hadoop fs -mkdir /input

2.4、拷贝本地3.txt到HDFS的input里

    [hadoop@Master ~]$ hadoop  fs -put 3.txt input

       重新连接DFS Locations,如下图:
       

2.5、点击WordCount.java,右键,点击【Run As】—>【Run Configurations】,配置运行参数,即输入和输出文件夹,点击【Run】按钮运行程序。

   hdfs://Master:9000/user/hadoop/input hdfs://Master:9000/user/hadoop/output

    

2.7、程序运行完成后,重新连接DFS Locations,可以从output中查看输出结果。如果可以看到如下图处理结果,那么说明开发环境搭建成功!
     

 

三、常见问题解决办法

3.1、eclipse 中运行 Hadoop2.7.3 map reduce程序 出现错误(null) entry in command string: null chmod 0700

       解决办法: 解压  hadoop-common-2.7.1-bin.zip,将解压后所有文件,拷贝到%HADOOP_HOME%\bin目录。并将解压文件中hadoop.dll,拷贝到c:\windows\system32目录中。

3.2、org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

       解决办法:我们下载对应hadoop源代码,hadoop-2.7.3-src.tar.gz解压,hadoop-2.7.3-src\hadoop-common-project\hadoop-common\src\main\java\org\apache\hadoop\io\nativeio下NativeIO.java 复制到对应的Eclipse的project,然后修改609行为return true如图所示:

posted @ 2017-04-30 15:17  royis  阅读(283)  评论(0)    收藏  举报