摘要: 一、影响MR程序效率的因素 1.计算机性能: CPU、内存、磁盘、网络, 计算机的性能会影响MR程序的速度与效率 2.I/O方面 1)数据倾斜(代码优化) 2)map和reduce数量设置不合理(通过配置文件后代码中设置) 3)map运行时间过长,导致reduce等待时间过长 4)小文件过多(浪费元 阅读全文
posted @ 2019-04-08 10:49 给你一个公主抱 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop的数据压缩 1.概述 在进行MR程序的过程中,在Mapper和Reducer端会发生大量的数据传输和磁盘IO,如果在这个过程中对数据进行压缩处理,可以有效的减少底层存储(HDFS)读写的字节数,,并且通过减少Map和Reduce阶段数据的输入输出来提升MR程序的速度,提高了网络带宽和 阅读全文
posted @ 2019-04-08 10:19 给你一个公主抱 阅读(405) 评论(0) 推荐(0) 编辑
摘要: 一、Mapjoin案例 1.需求:有两个文件,分别是订单表、商品表, 订单表有三个属性分别为订单时间、商品id、订单id(表示内容量大的表), 商品表有两个属性分别为商品id、商品名称(表示内容量小的表,用于加载到内存), 要求结果文件为在订单表中的每一行最后添加商品id对应的商品名称。 2.解决思 阅读全文
posted @ 2019-04-08 01:21 给你一个公主抱 阅读(1671) 评论(0) 推荐(0) 编辑