摘要: MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列。下面我们主要聊聊面试中比较常见的全排序和二次排序 一、全排序 全排序的方法一般有以下几种: 1.使用一个分区。 但是该方 阅读全文
posted @ 2018-07-14 23:50 stone1234567890 阅读(3421) 评论(1) 推荐(1) 编辑
摘要: 深入理解hadoop之数据倾斜 1、什么是数据倾斜 我们在用map /reduce程序执行时,有时候会发现reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的r 阅读全文
posted @ 2018-07-14 11:56 stone1234567890 阅读(575) 评论(0) 推荐(0) 编辑
摘要: 深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS。本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正。 HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统。HDFS以流式数 阅读全文
posted @ 2018-07-14 08:36 stone1234567890 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 本文系原创,若有转载需要,请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架:(画图不易,请勿挑剔) 2.1. inputformat工作机制 在 Ma 阅读全文
posted @ 2018-07-14 07:47 stone1234567890 阅读(2602) 评论(1) 推荐(1) 编辑