MapReduce 简单数据统计

1. 准备数据源

摘录了一片散文,保存格式为utf-8

2. 准备环境

2.1 搭建伪分布式环境

https://www.cnblogs.com/cjq10029/p/12336446.html

上传数据源文件到hdfs中创建的in目录下

2.2 下载相关资源

下载hadoop277

链接:https://pan.baidu.com/s/1xeZx4AVxcjU33hoMLvOojA
提取码:mxic

下载hadoop可执行程序 winutils.exe

链接:https://pan.baidu.com/s/1mPsKk3_TgynAKfJN-kkjSw
提取码:3bfe

2.3 配置环境

2.3.1 配置hadoop的bin和sbin的环境变量
2.3.2 配置Administator访问权限

#两种方式都可
#2.3.2.1 关闭访问权限
<property>   #core-site.xml
    <name>dfs.permissions</name>
    <value>false</value>
</property>

#2.3.2.2 授权
hadoop fs -chmod 777 文件路径

2.4 将资源放到对应位置

1.将hadoopBin.rar中的所有文件拷到hadoop的bin文件夹下
2.将hadoop-2.7.7/share/hadoop里common,hdfs,mapreduce,yarn四个文件夹下的jar包加入到项目中

3. 准备代码

3.1 开发Map类(继承Mapper类)

public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		//从文本中读出一行
		String line = value.toString();
		//将这一行字符串变成字符数组
		char[] charArray = line.toCharArray();
		//遍历每一个字符
		for(char a:charArray) {
			//将字符以  字符   1   的格式一行行输出到临时文件中
			context.write(new Text(a+""), new IntWritable(1));
                        //注:MapReduce中有自己的数据类型,需进行转换
		}
	}
}

3.2 开发Reduce类(继承Reduce类)

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable>{

	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,
			Reducer<Text, IntWritable, Text, IntWritable>.Context content) throws IOException, InterruptedException {
		//设计一个变量统计总数
		int num = 0;
		//遍历数据中整数部分
		for(IntWritable v:values) {
			//get()获得int类型的整数,然后累加
			num += v.get();
		}
		//以  字符  总数   的格式输出到指定文件夹
		content.write(key, new IntWritable(num));
	}
}

3.3 开发Driver类

public class WordCountDriver{
	public static void main(String[] arge) {
		System.setProperty("hadoop.home.dir", "F:\\Linux\\hadoop-2.7.7");
		//配置访问地址
		Configuration conf = new Configuration();
		conf.set("fs.defaultFS", "hdfs://192.168.3.8:9000");
		try {
			//获得job任务对象
			Job job = Job.getInstance(conf);
			//设置driver类
			job.setJarByClass(WordCountDriver.class);
			//设置Map类
			job.setMapperClass(WordCountMapper.class);
			//设置Map类输出的key数据的格式类
			job.setMapOutputKeyClass(Text.class);
			//设置Map类输出的value数据的格式类
			job.setMapOutputValueClass(IntWritable.class);
			//设置Reduce类  如果Reduce类输出格式类与Map类的相同,可不写
			job.setReducerClass(WordCountReduce.class);
			//设置Map类输出的key数据的格式类
			job.setOutputKeyClass(Text.class);
			//设置Map类输出的value数据的格式类
			job.setOutputValueClass(IntWritable.class);
			//设置被统计的文件的地址
			FileInputFormat.setInputPaths(job, new Path("/in/bob.txt"));
			//设置统计得到的数据文件的存放地址
			//注:文件所在的文件夹需不存在,由系统创建
			FileOutputFormat.setOutputPath(job, new Path("/out/"));
			//true表示将运行进度等信息及时输出给用户,false的话只是等待作业结束
			job.waitForCompletion(true);
		} catch (IOException e) {
			e.printStackTrace();
		} catch (ClassNotFoundException e) {
			e.printStackTrace();
		} catch (InterruptedException e) {
			e.printStackTrace();
		}
	}
}

4. 统计结果

5. 相关问题

5.1 问题一

Input path does not exist: file:/in/bob.txt

解决:检查访问地址及相关配置

5.2 问题二

解决:环境变量没配置好或还没生效(选择以下其中一种即可)

  1. 配置好hadoop环境变量,重启eclipse
  2. 加入代码System.setProperty("hadoop.home.dir", "F:\Linux\hadoop-2.7.7"),见reduce类代码

5.3 问题三

解决:见上文2.3.2

5.4 问题四

中文乱码

解决:
1.确保eclipse编码格式为utf-8
2.数据源文件保存格式为utf-8
3.使用转换流,字节流转字符流:new OutputStreamWrite(out,"UTF-8")

6. 拓展

6.1 打jar包

  1. 将FileInputFormat.setInputPaths(job, new Path("/in/bob.txt"))地址改为"/in/",统计in目录下所有文件
  2. 将此项目打成jar包上传到Linux系统/opt/test目录下
  3. 运行jar包,代码:hadoop jar jar包名 ,便可得到统计结果
  4. 以后便可将数据源文件放置于in文件夹中,直接运行jar包进行统计(统计前需删掉hdfs中的out文件夹)

6.2 使用hadoop-eclipse插件开发

6.2.1 下载hadoop-eclipse-plugin

链接:https://pan.baidu.com/s/1mC2KaCMxCmrYL5_RaGTI2w
提取码:zgqg
将该插件放入eclipse的plugin文件夹中

6.2.2 设置hadoop地址

6.2.3 创建项目

6.2.3.1 创建map/reduce项目


自动添加相关jar包

6.2.3.2 创建对应类


自动写入对应方法(可修改参数格式),如

6.2.4 设置MapReduce





右键点击,选择操作,上传数据源文件或查看文件都便捷许多

posted @ 2020-03-04 21:30  狮子对你微笑  阅读(881)  评论(0编辑  收藏  举报