MapReduce - 随笔分类 - 嘣嘣嚓

MapReduce-从HBase读取数据处理后再写入HBase

摘要：MapReduce-从HBase读取处理后再写入HBase 代码如下打包测试出现的问题一开始使用额TableMapReduceUtil,但是报下面这个错解决，不使用TableMapReduceUtil，分布设置便可解决此问题阅读全文

posted @ 2018-09-28 09:51 嘣嘣嚓阅读(616) 评论(0) 推荐(0)

MapReduce-边数据

摘要：边数据边数据（side data）是作业所需的额外的只读数据，以辅助处理主数据集。所面临的挑战在于如何使所有map或reduce任务（这些任务散布在集群内部）都能够方便而高效地使用边数据。利用Job来配置作业 Configuration类的各种setter方法能够方便地配置作业的任一键值对。如果阅读全文

posted @ 2018-09-24 15:04 嘣嘣嚓阅读(254) 评论(0) 推荐(0)

MapReduce-join连接

摘要：join连接 MapReduce能够执行大型数据集间的连接（join）操作。连接操作的具体实现技术取决于数据集的规模及分区方式连接操作如果由mapper执行，则称为“map端连接”；如果由reducer执行，则称为“reduce端连接”。 Map端连接在两个大规模输入数据集之间的map端连接会在数阅读全文

posted @ 2018-09-22 18:19 嘣嘣嚓阅读(237) 评论(0) 推荐(0)

MapReduce-读取HBase

摘要：MapReduce读取HBase数据代码如下阅读全文

posted @ 2018-09-17 15:33 嘣嘣嚓阅读(605) 评论(0) 推荐(0)

MapReduce-读取文件写入HBase

摘要：MapReduce直接写入HBase 代码如下阅读全文

posted @ 2018-09-17 13:49 嘣嘣嚓阅读(681) 评论(0) 推荐(0)

MapReduce-排序(全部排序、辅助排序)

摘要：排序排序是MapReduce的核心技术。 1.准备示例：按照气温字段对天气数据集排序。由于气温字段是有符号的整数，所以不能将该字段视为Text对象并以字典顺序排序。反之，用顺序文件存储数据，其IntWritable键代表气温(并且正确排序)，其Text值就是数据行。MapReduce作业只包含m 阅读全文

posted @ 2018-09-16 14:47 嘣嘣嚓阅读(1063) 评论(0) 推荐(0)

MapReduce-计数器

摘要：计数器计数器是收集作业统计信息的有效手段之一，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。根据计数器值来记录某一特定事件的发生比分析一堆日志文件容易得多。内置计数器Hadoop为每个作业维护若干内置计数器，以描述多项指标。例如，某些计数器记录已处理的字节数和记录数，使用户可监控已处理的输阅读全文

posted @ 2018-09-09 14:29 嘣嘣嚓阅读(403) 评论(0) 推荐(0)

MapReduce-多个输出(使用MultipleOutput，不指定reduce任务个数)

摘要：多个输出 FileOutputFormat及其子类产生的文件放在输出目录下。每个reduce一个文件并且文件由分区号命名：part-r-00000,part-r-00001,等等。有时可能需要对输出的文件名进行控制或让每个reducer输出多个文件。MapReduce为此提供了MultipleOut 阅读全文

posted @ 2018-08-26 22:23 嘣嘣嚓阅读(1193) 评论(0) 推荐(0)

MapReduce-多个Mapper

摘要：MapReduce的多输入、多mapper 虽然一个MapReduce作业的输入可能包含多个输入文件（由文件glob、过滤器和路径组成），但所有文件都由同一个InputFormat和同一个Mapper来解释。然而，数据格式往往会随时间而演变，所以必须写自己的mapper来处理应用中的遗留数据格式问题阅读全文

posted @ 2018-08-25 16:52 嘣嘣嚓阅读(857) 评论(0) 推荐(0)

MapReduce-二进制输入

摘要：Hadoop的MapReduce不只是可以处理文本信息，它还可以处理二进制格式的数据1. 关于SequenceFileInputFormat类Hadoop的顺序文件格式存储二进制的键/值对的序列。由于它们是可分割的(它们有同步点，所以reader可以从文件中的任意一点雨记录边界进行同步，例如分片的起阅读全文

posted @ 2018-08-22 22:01 嘣嘣嚓阅读(756) 评论(0) 推荐(0)

MapReduce-文本输入

摘要：1.TextInputFormat TextInputFormat是默认的InputFormat。每条记录是一行输入。键是LongWritable类型，存储该行在整个文件中的字节偏移量。值是这行的内容，不包括任何行终止符(换行符和回车符)，它被打包成一个Text对象。一般情况下，很难取得行号，因为文阅读全文

posted @ 2018-08-19 23:06 嘣嘣嚓阅读(307) 评论(0) 推荐(0)

MapReduce-输入分片与记录

摘要：一个输入分片(split)就是一个由单个map操作来处理的输入块。每一个map操作只处理一个输入分片。每个分片被划分为若干个记录，每条记录就是一个键值对，map一个接一个地处理记录。输入分片和记录都是逻辑概念，不必将它们对应到文件，尽管其常见形式都是文件。在数据库的场景中，一个输入分片可以对应于一个阅读全文

posted @ 2018-08-19 23:04 嘣嘣嚓阅读(1140) 评论(0) 推荐(0)

MapReduce-shuffle过程详解

摘要：Shuffle map端 map函数开始产生输出时，并不是简单地将它写到磁盘。这个过程很复杂，它利用缓冲的方式写到内存并出于效率的考虑进行预排序。每个map任务都有一个环形内存缓冲区用于存储任务输出。在默认情况下，缓冲区的大小为100MB，辞职可以通过io.sort.mb属性来调整。一旦缓冲内容达到阅读全文

posted @ 2018-08-08 22:12 嘣嘣嚓阅读(416) 评论(0) 推荐(0)

YARN中的失败分析

摘要：YARN中的失败分析对于在YARN中运行的MapReduce程序，需要考虑以下几种实体的失败任务、application master、节点管理器、资源管理器 1. 任务运行失败任务运行失败类似于MapReduce1的情况。JVM的运行时异常和突然退出被反馈给application master 阅读全文

posted @ 2018-08-07 21:56 嘣嘣嚓阅读(1752) 评论(0) 推荐(0)

经典的MapReduce1中的失败

摘要：经典的MapReduce1中的失败在MapReduce1运行时，主要考虑三种失败的模式，运行任务失败、tasktracker失败以及jobtracker失败1. 任务运行失败首先考虑子任务失败的情况。最常见的情况是map任务或reduce任务中的用户代码抛出运行异常。如果发生这种情况，子任务JVM进阅读全文

posted @ 2018-08-06 21:23 嘣嘣嚓阅读(491) 评论(0) 推荐(0)

YARN作业提交流程剖析

摘要：YARN(MapReduce2) Yet Another Resource Negotiator / YARN Application Resource Negotiator对于节点数超出4000的大型集群，MapReduce1系统开始面临着扩展性瓶颈。所以有了YARN的出现。YARN将jobtra 阅读全文

posted @ 2018-08-05 22:47 嘣嘣嚓阅读(918) 评论(0) 推荐(0)

经典的MapReduce1解析

摘要：MapReduce1任务图解最顶层包含4个独立的实体客户端，提交MapReduce作业jobtracker，协调作业的运行。Jobtracker是一个Java应用程序，它的主类是JobTrackertasktracker，运行作业划分后的任务。tasktracker是Java应用程序，它的主类是T 阅读全文

posted @ 2018-08-04 23:17 嘣嘣嚓阅读(280) 评论(0) 推荐(0)

MapReduce修改输出的文件名

摘要：MapReduce默认输出的文件名称格式如下：part-r-00000 自定义名称，比如editName，则输出的文件名称为：editName-r-0000，此方法没有彻底修改整个文件名，只修改了一部分方法如下重写TextOutPutFormat的setOutPutName方法，因为setOut 阅读全文

posted @ 2018-02-11 13:17 嘣嘣嚓阅读(770) 评论(0) 推荐(0)

MapReduce分区的使用(Partition)

摘要：MapReduce中的分区默认是哈希分区，根据map输出key的哈希值做模运算，如下如果我们需要根据业务需求来将map读入的数据按照某些特定条件写入不同的文件，那就需要自定义实现Partition，自定义规则举个简单的例子，使用MapReduce做wordcount，但是需要根据单词的长度写入不阅读全文

posted @ 2018-02-11 12:56 嘣嘣嚓阅读(1058) 评论(0) 推荐(0)

使用JobControl控制MapReduce任务

摘要：代码结构 BeanWritable:往数据库读写使用的bean ControlJobTest:JobControl任务控制 DBInputFormatApp:将关系型数据库的数据导入HDFS,其中包含了Map、Reduce,内部静态类 DBOutputFormatApp:将HDFS的结构化数据导入关阅读全文

posted @ 2018-02-09 22:10 嘣嘣嚓阅读(304) 评论(0) 推荐(0)

随笔分类 - MapReduce