随笔分类 - Hadoop
摘要:本文发表于本人博客。今天接着上次【Hadoop mapreduce自定义排序WritableComparable】文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需要了解的可以看看我在博客园的评论,现在开始。 首先我们查看下Job这个类,发现有setGrouping...
阅读全文
摘要:本文发表于本人博客。今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区、排序、分组、规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码里面的WordCount例子中对LongWritable类型定义,它实现抽象接口WritableCom...
阅读全文
摘要:本文发表于本人博客。在上一篇文章我写了个简单的WordCount程序,也大致了解了下关于mapreduce运行原来,其中说到还可以自定义分区、排序、分组这些,那今天我就接上一次的代码继续完善实现自定义分区。首先我们明确一下关于中这个分区到底是怎么样,有什么用处?回答这个问题先看看上次代码执行的结果,...
阅读全文
摘要:本文发表于本人博客。前面几次讲了关于Hadoop的环境搭建、HDFS操作,今天接着继续。本来Hadoop源码中就有一个例子WordCount,但是今天我们来自己实现一个加深对这个Mapper、Reducer的理解,如有不对欢迎指正。我们先来梳理一下思路,对于自定义Mapper以及Reducer,我们...
阅读全文
摘要:本文发表于本人博客。这次来看看我们的客户端用url方式来连接JobTracker。我们已经搭建了伪分布环境,就知道了地址。现在我们查看HDFS上的文件,比如地址:hdfs://hadoop-master:9000/data/test.txt。看下面代码: static final String...
阅读全文
摘要:本文发表于本人博客。 我们知道HDFS是Hadoop的分布式文件系统,那既然是文件系统那最起码会有管理文件、文件夹之类的功能吧,这个类似我们的Windows操作系统一样的吧,创建、修改、删除、移动、复制、修改权限等这些操作。 那我们现在来看看hadoop下是怎么操作的。 先输入hadoop ...
阅读全文
摘要:本文发表于本人博客。上次写了个hadoop伪分布环境搭建的笔记了,今天来说下hadoop分布式构建的基础RPC,这个RPC在提交Job任务的时候底层就是创建了RPC来实现远程过程调用服务端。我们首先可以通过Job的waitForCompletion(boolean verbose)方法来跟踪代码,按...
阅读全文
摘要:本文发表于本人博客。先来看看hadoop的大体架构是如何,主要分为HDFS以及MapRedure。HDFS的架构主从结构主节点,只有一个:namenode从节点,有很多个:datanodesnamenode负责: 接收用户的请求 维护文件系统的目录结构 管理文件与block之间的关系,bl...
阅读全文