摘要: 一、写在之前的 1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行排序和分组。 1.2 实验场景数据文件 在一些特定的数据文件中 阅读全文
posted @ 2017-11-03 11:24 初见微凉i 阅读(434) 评论(0) 推荐(0) 编辑
摘要: 一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按照不同的分区(Partition)通过网络复制到不同的re 阅读全文
posted @ 2017-11-03 11:23 初见微凉i 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 一、初步探索Partitioner 1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, v 阅读全文
posted @ 2017-11-03 11:22 初见微凉i 阅读(637) 评论(0) 推荐(0) 编辑
摘要: 一、Combiner的出现背景 1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.5是一个可选步骤,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《 阅读全文
posted @ 2017-11-03 11:21 初见微凉i 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 一、Hadoop中的计数器 计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容: 它被WordCount程序执行后显示如下日志: 在上图所示 阅读全文
posted @ 2017-11-03 11:20 初见微凉i 阅读(281) 评论(0) 推荐(0) 编辑
摘要: 开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclips 阅读全文
posted @ 2017-11-03 10:00 初见微凉i 阅读(371) 评论(0) 推荐(0) 编辑
摘要: 一、测试数据:手机上网日志 1.1 关于这个日志 假设我们如下一个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了优化,格式比较规整,便于学习研究。 该文件的内容如下(这里我只截取了三行): 1363157993044 18211575961 94-71-AC-CD- 阅读全文
posted @ 2017-11-03 09:59 初见微凉i 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它 阅读全文
posted @ 2017-11-03 09:57 初见微凉i 阅读(334) 评论(0) 推荐(0) 编辑
摘要: 一、RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。 RPC协议假定某些传输协议的存在 阅读全文
posted @ 2017-11-03 09:56 初见微凉i 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 一.HDFS出现的背景 随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是却不方便管理和维护—>因此,迫切需要一种系统来管理多台机器上的文件,于是就产生了分布式文件管理系统,英文名成为DFS(Distributed File Sys 阅读全文
posted @ 2017-11-03 09:47 初见微凉i 阅读(264) 评论(0) 推荐(0) 编辑