从0开始的Hadoop之手写WordCount(Idea版)
本文将从Hadoop的下载安装开始,手写代码并运行出你的第一个MapReduce程序 —— WordCount。实验平台为Windows。
目录
1、Hadoop 的下载和安装
下载地址:https://hadoop.apache.org/releases.html
选择你要需要的版本,然后点击 Binary 下载。
小编使用的是长期支持版3.2.1,点[击进入以后会有下载链接,点击下载。下载的是.tar.gz的压缩文件,我们需要对其进行解压。
下载Hadoop在windows下的相关文件
https://github.com/cdarlint/winutils
下载上图两个文件之后放到E:\hadoop-3.2.1\bin
,其中``E:\hadoop-3.2.1`是hadoop的解压目录
之后是环境变量的配置。
ps:其他可选环境变量配置,在本实验中用不到
变量名 | 值 / 添加值 |
---|---|
LD_LIBRARY_PATH | %HADOOP_HOME%\lib\native |
PATH | 添加 %HADOOP_HOME%\sbin |
验证
在cmd中输入hadoop version
看到如下的内容就表示配置成功了!
注意:如果发现hadoop无法识别自己的用户名可以考虑创建一个新的用户来执行这行命令。
2、使用idea创建一个maven工程。
新建文件
Main.java
MapperTest.java
ReducerTest.java
log4j.properties
目录结构如下
3、修改文件内容。
3.1 pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>org.example</groupId>
<artifactId>hadoop-wordcount</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<!-- 这里填写的是你的jdk的版本 -->
<maven.compiler.target>11</maven.compiler.target>
<maven.compiler.source>11</maven.compiler.source>
</properties>
<dependencies>
<dependency>
<groupId>log4j</groupId>
<artifactId>log4j</artifactId>
<version>1.2.17</version>
</dependency>
<!-- 要注意3.2.1是我下载hadoop的版本,这个版本号要和hadoop对应 -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.2.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.2.1</version>
</dependency>
</dependencies>
<build>
<finalName>hadoop_word_count</finalName>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>3.2.0</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<transformers>
<transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass>wordconunt.Main</mainClass>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<!-- 这里填写的是你的jdk的版本 -->
<source>11</source>
<target>11</target>
</configuration>
</plugin>
</plugins>
</build>
</project>
3.2 Main.java
package wordconunt;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException,
IllegalArgumentException, ClassCastException, ClassNotFoundException, InterruptedException {
// 加载配置类
Configuration conf = new Configuration();
// 获取Job对象
Job job = Job.getInstance();
// 设置jar存储的位置
job.setJarByClass(Main.class);
// 关联Mapper 和 reducer
job.setMapperClass(MapperTest.class);
job.setReducerClass(ReducerTest.class);
// 设置Mapper输出阶段的数据键值的类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置最终输出阶段的数据键值的类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 设置输出和输入路径
FileInputFormat.setInputPaths(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
//提交job
boolean res = job.waitForCompletion(true);
System.exit(res?0:1);
}
}
3.3 MapperTest.java
package wordconunt;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
public class MapperTest extends Mapper<LongWritable, Text, Text, IntWritable> {
Text wordText = new Text();
IntWritable outValue = new IntWritable(1);
@Override
protected void map(LongWritable key, Text value, Mapper.Context context)
throws IOException, InterruptedException {
// 读取一行
String line = value.toString();
// 安装空格进分词
String[] words = line.split(" ");//分词
// 遍历每一个词
for(String word : words) {
wordText.set(word);
//写出
context.write(wordText, outValue);
}
}
}
3.4 ReducerTest.java
package wordconunt;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
public class ReducerTest extends Reducer<Text, IntWritable, Text, IntWritable> {
/**
* key 输入的 键
* value 输入的 值
* context 上下文对象,用于输出键值对
*/
@Override
protected void reduce(Text key, Iterable<IntWritable> value,
Context context) throws IOException, InterruptedException {
int sum=0;
// 1 . 累计求和
for (IntWritable number : value) {
sum += number.get();
}
// 2 . 写出
context.write(key, new IntWritable(sum));
}
}
3.5 log4j.properties
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern= [%d{yyyy-MM-dd HH:mm}]:%p %l%m%n
#debug log
log4j.logger.debug=debug
log4j.appender.debug=org.apache.log4j.DailyRollingFileAppender
log4j.appender.debug.DatePattern='_'yyyy-MM-dd'.log'
log4j.appender.debug.File=./log/debug.log
log4j.appender.debug.Append=true
log4j.appender.debug.Threshold=DEBUG
log4j.appender.debug.layout=org.apache.log4j.PatternLayout
log4j.appender.debug.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss a} [Thread: %t][ Class:%c >> Method: %l ]%n%p:%m%n
4、设置输入输出文件
4.1 新建输入文件夹,并在其中新建一个文件,输入一些词,(如下,小编在自己的E盘新建了一个input文件夹作为输入,并且在里面建立了一个文件名为“in”的文件,输入了如下内容。
123 123
asd aa
123 hadoop
hdfs hdfs
name
4.2 设置输出输出变量。
点击绿色小三角运行,这里控制台会提示错误,不用管,只是获取一下运行时配置。
保存一下这个运行配置。
保存之后进行编辑,在程序参数里写入输入文件夹路径,和输出文件夹路径(注意:这里的输出路径是一个不存在的文件夹路径)
配置成功之后点击ok,就可以运行了