MapReduce入门(一)单词计数
一、MR计算模型的由来
MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。
Google公司发明了MapReduce之后,首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于MapReduce可以普遍应用于很多大规模数据的计算问题,因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。到目前为止,Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。
2003年和2004年,Google公司在国际会议上分别发表了两篇关于Google分布式文件系统和MapReduce的论文,公布了 Google的GFS和MapReduce的基本原理和主要设计思想。
2004年,开源项目Lucene(搜索索引程序库)和Nutch(搜索引擎)的创始人Doug Cutting发现MapReduce正是其所需要的解决大规模Web数据处理的重要技术,因而模仿Google MapReduce,基于Java设计开发了一个称为Hadoop的开源MapReduce并行计算框架和系统。
自此,Hadoop成为Apache开源组织下最重要的项目,自其推出后很快得到了全球学术界和工业界的普遍关注,并得到推广和普及应用。 MapReduce的推出给大数据并行处理带来了巨大的革命性影响,使其已经成为事实上的大数据处理的工业标准。
二、MapReduce基本设计思想
对付大数据并行处理:分而治之:
一个大数据若可以分为具有同样计算过程的数据块,并且这些数据块之间不存在数据依赖关系,则提高处理速度的最好办法就是采用“分而治之”的策略进行并行化计算。
MapReduce采用了这种“分而治之”的设计思想,对相互间不具有或者有较少数据依赖关系的大数据,用一定的数据划分方法对数据分片,然后将每个数据分片交由一个节点去处理,最后汇总处理结果。
上升到抽象模型:Map与Reduce:
MapReduce借鉴了函数式程序设计语言Lisp的设计思想。
用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口,程序员只要实现这两个基本接口即可快速完成并行化程序的设计。
MapReduce的设计目标是可以对一组顺序组织的数据元素/记录进行处理。
现实生活中,大数据往往是由一组重复的数据元素/记录组成,例如,一个Web访问日志文件数据会由大量的重复性的访问日志构成,对这种顺序式数据元素/记录的处理通常也是顺序式扫描处理。
MapReduce提供了以下的主要功能:
数据划分和计算任务调度:系统自动将一个作业(Job)待处理的大数据划分为很多个数据块,每个数据块对应于一个计算任务(Task),并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点),同时负责监控这些节点的执行状态,并负责Map节点执行的同步控制。
数据/代码互定位:为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分布存储的数据,这实现了代码向数据的迁移;当无法进行这种本地化数据处理时,再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移),但将尽可能从数据所在的本地机架上寻 找可用节点以减少通信延迟。
系统优化:为了减少数据通信开销,中间结果数据进入Reduce节点前会进行一定的合并处理;一个Reduce节点所处理的数据可能会来自多个Map节点,为了避免Reduce计算阶段发生数据相关性,Map节点输出的中间结果需使用一定的策略进行适当的划分处理,保证相关性数据发送到同一个Reduce节点;此外,系统还进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。
出错检测和恢复:以低端商用服务器构成的大规模MapReduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,因此 MapReduce需要能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务。同时,系统还将维护数据存储的可靠性,用多备份冗余存储机制提 高数据存储的可靠性,并能及时检测和恢复出错的数据
三、MapReduce的编写
1.加入依赖jar包--编写pom.xml
<properties>
<org.apache.hadoop.version>2.7.5</org.apache.hadoop.version>
</properties>
<!--分布式计算-->
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-core</artifactId>
<version>${org.apache.hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-common</artifactId>
<version>${org.apache.hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-mapreduce-client-jobclient</artifactId>
<version>${org.apache.hadoop.version}</version>
</dependency>
<!--分布式存储-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${org.apache.hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>${org.apache.hadoop.version}</version>
</dependency>
</dependencies>
2.在resources中添加core-site.xml文件,配置内容如下:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master2:9000</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master2:8030</value>
</property>
<property>
<name>fs.hdfs.impl</name>
<value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
</property>
</configuration>
master2:表示我集群中NameNode的主机名,填写主机名需要在本地机中的hosts中添加IP配置,
如果不配置,请填写主机名所对应的IP。
3..mapreduce函数(类)的编写,有三个类分别是代表map、reduce、job
3.1:编写WCMapper类(map)继承Mapper并重写map这个方法,具体内容如下:
package com.day01;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/**
* java基本数据类型步支持序列化--存放在内存中不在磁盘中(不能被持久化)
* 用来处理map任务:映射
* map任务接收的是kv,输出的也是kv 1(行号),hello world
* 第一个泛型表示:输入key的数据类型 输入的数据相当于文件开头的偏移量(行号)没有实际意义
* 第二个泛型表示:输入value的数据类型 输入的文件的一行内容
* 第三个泛型表示:输出key的数据类型 输出的key是一个字符串
* 第四个泛型表示:输出value的数据类型
*
* LongWritable:等价于java中的long
* Text :等价与java中的string
* IntWritable:等价于java中的int
*
* XXXWritable 是hadoop定义的基本数据类型,相当于对java中的数据类型做一个封装,同时序列化(可以网络传输以及存储到磁盘上)
*
*/
public class WCMapper extends Mapper<LongWritable,Text,Text,IntWritable> {
//map方法每次执行一行数据,会被循环调用map方法(有多少行就调用多少次)
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//将一行数据(text类型)变为string类型
String line = value.toString();
String[] words = line.split(" ");
//定义value
IntWritable one = new IntWritable(1);
//便利单词,输出word 1
for (int i = 0; i < words.length; i++) {
Text keyOut = new Text(words[i]);
//输出word 1
context.write(keyOut,one);
}
}
}
3.2、编写WCReducer类(reduce)继承Reducer并重写reduce这个方法,具体内容如下:
package com.day01;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
import java.util.Iterator;
/**
* 用来处理reduce任务:合并
* 在reduce端框架会将相同的key的value放在一个集合(迭代器)
*/
public class WCReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
//每次处理一个key,会被循环调用,有多少个key就会调用几次
@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
//获取迭代器
Iterator<IntWritable> iterator = values.iterator();
int count = 0;
while (iterator.hasNext()){
IntWritable one = iterator.next();
count+=one.get();
}
//context的write只接受hadoop的数据类型,不接受java的数据类型
context.write(key,new IntWritable(count));
}
}
3.3、编写WCJob类(job),具体内容如下:
package com.day01;
import com.google.common.io.Resources;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.LineNumberReader;
import java.util.ArrayList;
//mapred是hadoop的1.X的包,mapreduce是2.X的API
/**
* 测试-设定任务的运行
* 输入与输出的路径
*/
public class WCJob {
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Configuration coreSiteConf = new Configuration();
coreSiteConf.addResource(Resources.getResource("core-site.xml"));
//设置一个任务,后面是job的名称
Job job = Job.getInstance(coreSiteConf, "wc");
//设置job的运行类,就是此类
job.setJarByClass(WCJob.class);
//设置Map和Reduce处理类
job.setMapperClass(WCMapper.class);
job.setReducerClass(WCReducer.class);
//设置map输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//设置job/reduce输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
//设置任务的输入路径
FileInputFormat.addInputPath(job, new Path("/wc"));
//设置任务的输出路径--保存结果(这个目录必须是不存在的目录)
//删除存在的文件
deleteFileName("/wcout");
FileOutputFormat.setOutputPath(job, new Path("/wcout"));
//运行任务 true:表示打印详情
boolean flag = job.waitForCompletion(true);
if (flag){
System.out.println(flag);
readContent("/wcout/part-r-00000");
}else {
System.out.println(flag+",读取文件失败");
}
}
//删除已经存在在hdfs上面的文件文件
private static void deleteFileName(String path) throws IOException {
//将要删除的文件
Path fileName = new Path(path);
Configuration entries = new Configuration();
//解析core-site-master2.xml文件
entries.addResource(Resources.getResource("core-site.xml"));
//获取客户端文件系统
FileSystem fileSystem = FileSystem.get(entries);
if (fileSystem.exists(fileName)){
System.out.println(fileName+"已经存在,正在删除它...");
boolean flag = fileSystem.delete(fileName, true);
if (flag){
System.out.println(fileName+"删除成功");
}else {
System.out.println(fileName+"删除失败");
return;
}
}
//关闭资源
fileSystem.close();
}
//读取文件内容
private static void readContent(String path) throws IOException {
//将要读取的文件路径
Path fileName = new Path(path);
ArrayList<String> returnValue = new ArrayList<String>();
Configuration configuration = new Configuration();
configuration.addResource(Resources.getResource("core-site.xml"));
//获取客户端系统文件
FileSystem fileSystem = FileSystem.get(configuration);
//open打开文件--获取文件的输入流用于读取数据
FSDataInputStream inputStream = fileSystem.open(fileName);
InputStreamReader inputStreamReader = new InputStreamReader(inputStream);
//一行一行的读取数据
LineNumberReader lineNumberReader = new LineNumberReader(inputStreamReader);
//定义一个字符串变量用于接收每一行的数据
String str = null;
//判断何时没有数据
while ((str=lineNumberReader.readLine())!=null){
returnValue.add(str);
}
//打印数据到控制台
System.out.println("文件内容如下:");
for (String read :
returnValue) {
System.out.println(read);
}
//关闭资源
lineNumberReader.close();
inputStream.close();
inputStreamReader.close();
}
}
-----在本地运行
a.在你的集群的hdfs上创建/wc
hadoop fs -mkdir /wc
b.将两个文件写入内容,内容间以空格隔开,并将文件put到hdfs中的/wc上
c.在C:\Windows\System32中添加hadoop.dll与winutils.exe文件
hadoop.dll与winutils.exe这两个文件的链接:https://pan.baidu.com/s/10xa7wC3BwlH3oF7DoYFE1A
提取码:c7ie
d.在D:\soft\hadoop\hadoop-2.7.5\bin中添加hadoop.dll与winutils.exe文件
e.将idea中core-site.xml中关于yarn的配置删除掉、
-经过以上a-b-c-d-e操作之后,直接Run,出现以下内容就恭喜你成功!!!!!!!
----------在linux上运行
将写的项目打包
1.点击左下角的方框,再店家maven projects-->找到想要打包的项目
-->点击Lifecycle-->双击package就会开始打包
2.将jar包上传并改名(可改可不改)
3.开始运行jar包
例如运行mrdemo.jar中的WEJob类
hadoop jar mrdemo.jar com.day01.WCJob
也可以在web中输入http://192.168.228.13:8088/cluster/apps/FINISHED
192.168.228.13:修改成自己的主机IP,出现SUCCEEDED表示执行成功
过程中出现下面异常,在网上查看说是hadoop的一个BUG
java.lang.InterruptedException
at java.lang.Object.wait(Native Method)
at java.lang.Thread.join(Thread.java:1252)
at java.lang.Thread.join(Thread.java:1326)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.closeResponder(DFSOutputStream.java:716)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.endBlock(DFSOutputStream.java:476)
at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:652)
异常问题:
保证本地运行成功
上传jar包到hdfs上运行找不到类异常--没有将第三方依赖一起打包
---将第三方jar包放在lib里面,再打包(就会自动加载lib里面的jar包)就解决了--如下图
还有其他异常,欢迎分享一起解决....