DaBai的黑屋

2019年9月14日

摘要：如何获取mr当前文件名称： //获取当前处理切片FileSplit fileSplit = （FileSplit）context.getInputSplit();//根据当前切片获取String fileName = fileSplit.getPath().getNmae(); 阅读全文

posted @ 2019-09-14 20:54 DaBai的黑屋阅读(135) 评论(0) 推荐(0)

MapReduce优化参数

摘要：资源相关参数 /*在MapReduce应用程序中配置就可以生效*/ 一个Map Task可使用的内存上限（单位:MB），默认为1024。如果Map Task实际使用的资源量超过该值，则会被强制杀死。一个Reduce Task可使用的资源上限（单位:MB），默认为1024。如果Reduce Task 阅读全文

posted @ 2019-09-14 20:53 DaBai的黑屋阅读(521) 评论(0) 推荐(0)

Reducetask并行度机制

摘要： reducetask并行度同样影响整个job的执行并发度和执行效率，与maptask的并发数由切片数决定不同，Reducetask数量的决定是可以直接手动设置： job.setNumReduceTasks(4); 如果数据分布不均匀，就有可能在reduce阶段产生数据倾斜。注阅读全文

posted @ 2019-09-14 20:52 DaBai的黑屋阅读(451) 评论(0) 推荐(0)

Writable接口与序列化机制

摘要：序列化概念 序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。 Java序列化（java.io.Serializable） Hadoop序列化的特点序列化格式特点：紧凑：阅读全文

posted @ 2019-09-14 20:51 DaBai的黑屋阅读(766) 评论(0) 推荐(0)

MapReduce并行度机制

摘要： MapTask的并行度指的是map阶段有多少个并行的task共同处理任务。map阶段的任务处理并行度，势必影响到整个job的处理速度。那么，MapTask并行实例是否越多越好呢？其并行度又是如何决定呢？ 一个MapReducejob的map阶段并行度由客户端在提交job时决定，阅读全文

posted @ 2019-09-14 20:51 DaBai的黑屋阅读(695) 评论(0) 推荐(1)

Shuffle阶段数据的压缩机制

摘要：在shuffle阶段，大量的数据从map阶段输出，发送到reduce阶段，这一过程中，可能会涉及到大量的网络IO。输出数据较大时，使用hadoop提供的压缩机制对数据进行压缩，可以指定压缩的方式。减少网络传输带宽和存储的消耗；可以对map的输出进行压缩（map输出到reduce输入的过程，可以s 阅读全文

posted @ 2019-09-14 20:50 DaBai的黑屋阅读(282) 评论(0) 推荐(0)

MapReduce的Combiner组件

摘要：每一个map都可能会产生大量的本地输出，Combiner的作用就是对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段之一。 combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件阅读全文

posted @ 2019-09-14 20:49 DaBai的黑屋阅读(800) 评论(0) 推荐(0)

MapReduce的Partitioner编程

摘要： 1．概述序列化（Serialization）是指把结构化对象转化为字节流。反序列化（Deserialization）是序列化的逆过程。把字节流转为结构化对象。当要在进程间传递对象或持久化对象的时候，就需要序列化对象成字节流，反之当要将接收到或从磁盘读取的字节流转换为对象，就要进行反序列化。阅读全文

posted @ 2019-09-14 20:48 DaBai的黑屋阅读(170) 评论(0) 推荐(0)

MapReduce数据分区

摘要：一个：  多个代码实现： Mapper：一个：多个代码实现： Mapper： .mapreduce.Mapper.Context; public class EmployeeMapper extends Mapper<LongWritable, Text, LongWr 阅读全文

posted @ 2019-09-14 20:47 DaBai的黑屋阅读(423) 评论(0) 推荐(0)

Mapreduce编程技巧

摘要：在MR中，牢牢记住key时什么，因为key许多默认属性排序》key的字典序分区》key的哈希值 % reduce task Num 分组》key相同为一组  x 1 排序》key的字典序 2 分区》key的哈希值 % reduce task Num 3 分组》k 阅读全文

posted @ 2019-09-14 20:47 DaBai的黑屋阅读(200) 评论(0) 推荐(0)

无法浪费时间，浪费的只是自己！

公告