Whatever_It_Takes - 博客园

2020年8月26日

摘要：自定义OutputFormat类思考一个问题：我们前面编程的时候可以发现，一个reducetask默认会把结果输出到一个文件。那如果我们想要让一个reducetask的结果分类输出到不同文件中，要怎么实现，我们可以通过自定义outputformat类来解决。案例需求现在有一些订单的评论数据，需阅读全文

posted @ 2020-08-26 23:06 Whatever_It_Takes 阅读(224) 评论(0) 推荐(0) 编辑

Hadoop（18）shuffle阶段（分区、排序、规约、分组）

摘要： Mapreduce--分区（shuffle) 分区partition 我们来回顾一下mapreduce编程指导思想中的第三个步骤（shuffle阶段的分区）：第三步：对输出的key，value对进行分区：相同key的数据发送到同一个reduce task里面去，相同key合并，value形成一个集阅读全文

posted @ 2020-08-26 00:00 Whatever_It_Takes 阅读(2513) 评论(0) 推荐(1) 编辑

2020年8月25日

Hadoop（17）自定义输入类

摘要：自定义Inputformat类 mapreduce框架当中已经给我们提供了很多的文件输入类，用于处理文件数据的输入，如果以上提供的文件数据类还不够用的话，我们也可以通过自定义InputFormat来实现文件数据的输入案例需求现在有大量的小文件，我们通过自定义InputFormat实现将小文件的内阅读全文

posted @ 2020-08-25 23:58 Whatever_It_Takes 阅读(304) 评论(0) 推荐(0) 编辑

Hadoop（16）输入类

摘要： Inputformat类 InputFormat是mapreduce当中用于处理数据输入的一个组件，是最顶级的一个抽象父类，主要用于解决各个地方的数据源的数据输入问题。其中InputFormat的UML类图可以通过idea进行查看（只有商业版本才有这个功能），如下图。查看类图的方式：进行要查看的类阅读全文

posted @ 2020-08-25 23:57 Whatever_It_Takes 阅读(246) 评论(0) 推荐(0) 编辑

Hadoop（15）Mapreduce编程实现案例2（手机号）

摘要： Mapreduce编程实现案例2(上下行) Writable是Hadoop的序列化格式，hadoop定义了这样一个Writable接口。一个类要支持可序列化只需实现这个接口即可。另外Writable有一个子接口是WritableComparable，writableComparable是既可实现阅读全文

posted @ 2020-08-25 23:55 Whatever_It_Takes 阅读(377) 评论(0) 推荐(0) 编辑

Hadoop（14）Mapreduce的运行模式

摘要： Mapreduce的运行模式本地模式我们的上面的案例1的运行模式就是本地模式，mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行，输入和输出路径既可以在本地文件系统，也可以在hdfs上。本地模式非常便于进行业务逻辑的debug，只要在eclipse或IDEA中阅读全文

posted @ 2020-08-25 23:53 Whatever_It_Takes 阅读(431) 评论(0) 推荐(0) 编辑

Hadoop（13）MapReduce编程实现--WordCount

摘要： Mapreduce编程实现案例 (wordcount) 案例需求现有数据格式如下，每一行数据之间都是使用逗号进行分割，求取每个单词出现的次数 hello,hello world,world hadoop,hadoop hello,world hello,flume hadoop,hive hive 阅读全文

posted @ 2020-08-25 23:52 Whatever_It_Takes 阅读(287) 评论(0) 推荐(0) 编辑

Hadoop（12）Mapreduce核心思想、编程模型、编程指导思想（八大步骤）

摘要： mapreduce核心思想 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。 MapReduce的核心思想是阅读全文

posted @ 2020-08-25 23:50 Whatever_It_Takes 阅读(873) 评论(0) 推荐(0) 编辑

Hadoop（11）hadoop常用可序列化类型

摘要： Hadoop常用可序列化类型 hadoop没有沿用java当中基本的数据类型，而是自己进行封装了一套数据类型，其自己封装的类型与java的类型对应如下表4-1 常用的数据类型对应的Hadoop数据序列化类型 Java类型 Hadoop Writable类型 Boolean BooleanWrita 阅读全文

posted @ 2020-08-25 23:49 Whatever_It_Takes 阅读(765) 评论(0) 推荐(0) 编辑

Hadoop（10）多个集群之间的数据拷贝、hdfs快照管理、hdfs回收站管理

摘要：多个集群之间的数据拷贝在我们实际工作当中，极有可能会遇到将测试集群的数据拷贝到生产环境集群，或者将生产环境集群的数据拷贝到测试集群，那么就需要我们在多个集群之间进行数据的远程拷贝，hadoop自带也有命令可以帮我们实现这个功能 1、本地文件拷贝scp cd /kkb/soft scp -r jdk 阅读全文

posted @ 2020-08-25 23:48 Whatever_It_Takes 阅读(527) 评论(0) 推荐(0) 编辑

cqzs+nl

公告