上一页 1 ··· 5 6 7 8 9 10 下一页

2015年11月18日

Hadoop学习笔记—13.分布式集群中节点的动态添加与下架

摘要: Hadoop学习笔记—13.分布式集群中节点的动态添加与下架开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结... 阅读全文

posted @ 2015-11-18 17:01 1130136248 阅读(217) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—11.MapReduce中的排序和分组

摘要: Hadoop学习笔记—11.MapReduce中的排序和分组一、写在之前的1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行... 阅读全文

posted @ 2015-11-18 17:00 1130136248 阅读(190) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—12.MapReduce中的常见算法

摘要: Hadoop学习笔记—12.MapReduce中的常见算法一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数... 阅读全文

posted @ 2015-11-18 17:00 1130136248 阅读(3904) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—9.Partitioner与自定义Partitioner

摘要: Hadoop学习笔记—9.Partitioner与自定义Partitioner一、初步探索Partitioner1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就... 阅读全文

posted @ 2015-11-18 16:59 1130136248 阅读(181) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—10.Shuffle过程那点事儿

摘要: Hadoop学习笔记—10.Shuffle过程那点事儿一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按... 阅读全文

posted @ 2015-11-18 16:59 1130136248 阅读(247) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—8.Combiner与自定义Combiner

摘要: Hadoop学习笔记—8.Combiner与自定义Combiner一、Combiner的出现背景1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.5是一个可选步骤,它就是... 阅读全文

posted @ 2015-11-18 16:58 1130136248 阅读(240) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—7.计数器与自定义计数器

摘要: Hadoop学习笔记—7.计数器与自定义计数器一、Hadoop中的计数器计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容:hello y... 阅读全文

posted @ 2015-11-18 16:57 1130136248 阅读(289) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

摘要: Hadoop学习笔记—6.Hadoop Eclipse插件的使用开篇:Hadoop 是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较 大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的... 阅读全文

posted @ 2015-11-18 16:56 1130136248 阅读(183) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—4.初识MapReduce

摘要: Hadoop学习笔记—4.初识MapReduce一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大 数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而... 阅读全文

posted @ 2015-11-18 16:55 1130136248 阅读(548) 评论(0) 推荐(0) 编辑

Hadoop学习笔记—3.Hadoop RPC机制的使用

摘要: 一、RPC基础概念1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在... 阅读全文

posted @ 2015-11-18 16:54 1130136248 阅读(249) 评论(0) 推荐(0) 编辑

上一页 1 ··· 5 6 7 8 9 10 下一页

导航