随笔档案「2018年7月14日」：深入理解hadoop之排序 ... - stone1234567890

2018年7月14日

摘要： MapReduce的排序是默认按照Key排序的，也就是说输出的时候，key会按照大小或字典顺序来输出，比如一个简单的wordcount，出现的结果也会是左侧的字母按照字典顺序排列。下面我们主要聊聊面试中比较常见的全排序和二次排序一、全排序全排序的方法一般有以下几种： 1.使用一个分区。但是该方阅读全文

posted @ 2018-07-14 23:50 stone1234567890 阅读(3459) 评论(1) 推荐(1)

深入理解hadoop数据倾斜

摘要：深入理解hadoop之数据倾斜 1、什么是数据倾斜我们在用map /reduce程序执行时，有时候会发现reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的r 阅读全文

posted @ 2018-07-14 11:56 stone1234567890 阅读(596) 评论(0) 推荐(0)

深入理解hadoop之HDFS

摘要：深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文，趁热打铁接下来聊聊HDFS。本博文参考资料为HADOOP权威指南第3版完版，博文如有错漏之处，敬请指正。 HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统。HDFS以流式数阅读全文

posted @ 2018-07-14 08:36 stone1234567890 阅读(555) 评论(0) 推荐(0)

深入理解hadoop之mapreduce

摘要：本文系原创，若有转载需要，请注明出处。https://www.cnblogs.com/bigdata-stone/ 1.mapReduce简介 MapReduce是面向大数据并行处理的计算模型、框架和平台。 2.图解计算框架：(画图不易，请勿挑剔) 2.1. inputformat工作机制在 Ma 阅读全文

posted @ 2018-07-14 07:47 stone1234567890 阅读(2629) 评论(1) 推荐(1)

大数据开发程序猿

做有态度的码农，欢迎各位朋友光临，本博客长期更新，需要学习讨论找工作面试的同学可以加qq群：694117549，交个朋友相互交流。

公告