MapReduce编程——倒排索引
需求:统计每个单词在每个文件中出现的词频
有2个文件:a.txt b.txt
a.txt 文件中的内容:
<0,”hello tom”>
<1,”hello kitty”>
<2,”hello world”>
<3,”hello jerry”>
b.txt 文件中的内容:
<0,”hello tom”>
<1,”hello tom”>
<2,”hello jerry “>
想要得到的最终结果形式:
hello “a.txt->5 b.txt->3”
tom “a.txt->2 b.txt->1”
kitty “a.txt->1”
原理剖析:总共分3个阶段
——————— 第一阶段:Map阶段————————————-
输入:
a.txt 文件中的内容:
<0,”hello tom”>
<1,”hello kitty”>
<2,”hello world”>
<3,”hello jerry”>
b.txt 文件中的内容:
<0,”hello tom”>
<1,”hello tom”>
<2,”hello jerry “>
输出:
context.write(“hello->a.txt”,”1”);
context.write(“tom->a.txt”,”1”);
context.write(“hello->a.txt”,”1”);
context.write(“kitty->a.txt”,”1”);
context.write(“hello->a.txt”,”1”);
context.write(“world->a.txt”,”1”);
context.write(“hello->a.txt”,”1”);
context.write(“jerry->a.txt”,”1”);
context.write(“hello->b.txt”,”1”);
context.write(“tom->b.txt”,”1”);
context.write(“hello->b.txt”,”1”);
context.write(“tom->a.txt”,”1”);
context.write(“hello->a.txt”,”1”);
context.write(“jerry->a.txt”,”1”);
——————— Combiner阶段———————————–
输入:
<”hello->a.txt”,”1”>
<”hello->a.txt”,”1”>
<”hello->a.txt”,”1”>
<”hello->a.txt”,”1”>
<”hello->a.txt”,”1”>
<”hello->b.txt”,”1”>
<”hello->b.txt”,”1”>
<”hello->b.txt”,”1”>
输出:
context.write(“hello”,”a.txt->4”);
context.write(“hello”,”b.txt->3”);
————————— Reducer阶段—————————–
输入:
<”hello”,{“a.txt->5”,”b.txt->3”}>
输出:
context.write(“hello”,”a.txt->5 b.txt->3”);
最终结果:
hello “a.txt->5 b.txt->3”
tom “a.txt->2 b.txt->1”
kitty “a.txt->1”
实现代码如下:
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class InverseIndex {
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
Job job = Job.getInstance(conf);
//设置jar
job.setJarByClass(InverseIndex.class);
//设置Mapper相关的属性
job.setMapperClass(IndexMapper.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
FileInputFormat.setInputPaths(job, new Path(args[0]));//words.txt
//设置Reducer相关属性
job.setReducerClass(IndexReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setCombinerClass(IndexCombiner.class);
//提交任务
job.waitForCompletion(true);
}
/**
* Map阶段
**/
public static class IndexMapper extends Mapper<LongWritable, Text, Text, Text>{
private Text k = new Text();
private Text v = new Text();
@Override//重写map方法
protected void map(LongWritable key, Text value,
Mapper<LongWritable, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
//将文件中的内容一行一行读出 输入内容的原型应该是<0,"hello tom"> 行号作为key,一行内容作为value
String line = value.toString();
//使用空格分割字符串
String[] fields = line.split(" ");
//得到该map的输入切片
FileSplit inputSplit = (FileSplit) context.getInputSplit();
//通过输入切片获取文件路径名称
Path path = inputSplit.getPath();
String name = path.getName();
//拼接字符串 文件名->出现的次数
for(String f : fields){
k.set(f + "->" + name);
v.set("1");
context.write(k, v);
}
}
}
/**
* combiner是一个特殊的reducer,先在combiner中进行一次合并
**/
public static class IndexCombiner extends Reducer<Text, Text, Text, Text>{
private Text k = new Text();
private Text v = new Text();
@Override//重写reduce方法(不是conbiner)
protected void reduce(Text key, Iterable<Text> values,
Reducer<Text, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
//将 文件名称 和 单词出现次数 通过"->" 切分
String[] fields = key.toString().split("->");
long sum = 0;
//迭代器values中的内容应该是:【1,1,1...】
for(Text t : values){
sum += Long.parseLong(t.toString());
}
//输出Key应该是 单词
k.set(fields[0]);
//取出这个单词对应的文件名称,和出现次数进行拼接 作为输出Value的值
v.set(fields[1] + "->" + sum);
context.write(k, v);
}
}
/**
* Reduce阶段 在reduce阶段进行第二次合并
*/
public static class IndexReducer extends Reducer<Text, Text, Text, Text>{
private Text v = new Text();
@Override//输入 K:单词 V:文件名—>出现次数
protected void reduce(Text key, Iterable<Text> values,
Reducer<Text, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
String value = "";
//迭代器values中的内容应该是:【a.txt->5 ,b.txt->3】
将这个值通过迭代器循环,使用"->"连接起来
for(Text t : values){
value += t.toString() + " ";
}
//key仍然是单词
v.set(value);
context.write(key, v);
}
}
}
运行:
编写好Map-Reduce程序之后,在hadoop的hdfs上传两个文件,存放至/ii目录下,即 ii/[ a.txt, b.txt ]
使用hadoop jar 命令启动运行MR例程:
hadoop jar /root/mrs.jar(指定jar文件保存的目录)cn.itcast.hadoop.mr.ii.InverseIndex(指定jar文件中main方法的路径) /ii(输入文件a.txt b.txt在hdfs中所在的目录) /iiout(输出文件在hdfs中所在的目录)
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步