随笔分类 -  hadoop-mapreduce

摘要:这是mr的一种优化策略,通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘io,提高mr运行速度(但也相应增加了cpu运算负担) 特性: 1.mr支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积。 2.压缩特性使用得当能提高性能,但运用 阅读全文
posted @ 2018-06-04 08:10 瓶子xf 阅读(108) 评论(0) 推荐(0) 编辑
摘要:MapReduce的自制Writable分组输出及组内排序 阅读全文
posted @ 2018-06-03 17:50 瓶子xf 阅读(100) 评论(0) 推荐(0) 编辑
摘要:MapReduce Join MapJoin和ReduceJoin区别及优化 maptask处理后写到本地,如果再到reduce,又涉及到网络的拷贝。 map端join最大优势,可以提前过滤不需要的数据。 如对于20G左右的文件,可以用2个job来处理: 一个mapreduce进行数据过滤, 另一个 阅读全文
posted @ 2018-06-03 13:45 瓶子xf 阅读(655) 评论(0) 推荐(0) 编辑
摘要:Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系。。。。),不便于在网络中高效传输; 所以,hadoop自己开发了一套序列化机制(Writable),精简,高效 阅读全文
posted @ 2018-06-03 10:57 瓶子xf 阅读(371) 评论(0) 推荐(0) 编辑
摘要:1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;(从map的输出到reduce的输入) shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输 阅读全文
posted @ 2018-06-03 10:51 瓶子xf 阅读(255) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示