2012 年 11月随笔档案 - 飞天的白猪

一步一步学习hadoop(十一)

摘要：Combiner和Partitioner Combiner一般被定义为mini Reducer或者本地Reducer，对一个mapper任务的输出进行归约，减轻网络流量消耗和Reducer任务的负担。从Combiner是继承Reducer类可以一窥它的功能。还是一WordCou... 阅读全文

posted @ 2012-11-20 12:55 飞天的白猪阅读(153) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（十）

摘要：MapRedcue作业的设置与运行新版本的设置和旧版本的有较大区别，新版本使用job对象统一管理作业的配置和运行，删除了JobClient对象，实现了配置和运行的统一。编写好了map函数和reduce函数，再对MapReduce作业进行适当的设置，MapReduc... 阅读全文

posted @ 2012-11-15 12:19 飞天的白猪阅读(165) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（九）

摘要：Reducer的实现 map任务读取数据，解析数据，按照键值将数据分成一组一组的，reduce任务收集map任务的输出，通过合并、排序和归约三个过程对map的输出数据进行进一步的处理。现在我们只关心归约过程即reduce函数的实现。实际上我们不用重新去实现，只需继承Had... 阅读全文

posted @ 2012-11-14 12:36 飞天的白猪阅读(153) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（八）

摘要：Map任务执行类的实现 Hadoop MapReduce框架将要处理数据切分成片，将每个分片让一个map任务去完成，每个map任务都将分片数据解析为键值对数据，调用Mapper类的map函数，将输入键值对转化为输出键值对，输出键值对的类型和输入键值对的类型可以没有任何关系。一个输入键值... 阅读全文

posted @ 2012-11-13 12:55 飞天的白猪阅读(209) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（七）

摘要：Hadoop的MapReduce作业都是对key/value空间进行处理，从一个键值对空间映射到另一个键值对空间。具体来讲就是 (输入) -> map -> -> combine -> -> reduce -> (输出) Hadoop中的key/value的类... 阅读全文

posted @ 2012-11-12 22:31 飞天的白猪阅读(279) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（六）

摘要：hadoop框架设计得非常好，你只需要完成很少的工作就可以让自己的mapreduce作业运行起来，但是很多时候我们想要有更多的掌控权，以完成特定任务的特殊要求。这就需要我们去修改hadoop框架的默认配置。先介绍一下mapreduce作业相关的一些默认配置 1.输入格式（InputFormat... 阅读全文

posted @ 2012-11-11 16:55 飞天的白猪阅读(157) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（五）

摘要：Hadoop分布式文件系统（HDFS）首先介绍一下HDFS的特点： 1.擅长处理大文件，超大文件。几十G甚至PB级别的文件 2.擅长流式数据访问，一次写入多次读取是最高效的访问模式 3.可以运行在普通的机器上，一般只要求内存是ECC内存，可以对数据进行纠错。 4.擅长执行非实时的分析或者是近实... 阅读全文

posted @ 2012-11-10 16:07 飞天的白猪阅读(119) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（四）

摘要：hadoop作业执行的概念介绍 hadoop框架将作业分成若干小任务（task），包括map任务和reduce任务，其中reduce任务由作业提交者明确指定，框架默认为只有一个reduce任务 hadoop框架通过两类节点控制作业的执行过程，这两类节点是jobtracker和tasktracke... 阅读全文

posted @ 2012-11-10 15:05 飞天的白猪阅读(150) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（三）

摘要：学东西都是从例子开始是最好的，从hadoop的一个简单的mapreduce作业开始 import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuratio... 阅读全文

posted @ 2012-11-10 14:05 飞天的白猪阅读(203) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（二）

摘要：要想真正发挥hadoop的威力，必须将hadoop在集群上部署，下面介绍hadoop集群的部署。hadoop的集群部署是建立在伪集群安装的基础上，现假设有三台机器，一台master，两台slave，分别为slave1和slave2(其实两台机器也可以实现集群，其中一台机器同时扮演master和s... 阅读全文

posted @ 2012-11-10 00:23 飞天的白猪阅读(139) 评论(0) 推荐(0) 编辑

一步一步学习hadoop（一）

摘要：想要学习hadoop，首先要将把“刀”磨好，安装好hadoop，hadoop集群有三种模式：本地模式，伪集群模式和集群模式，其中本地模式和伪集群模式主要用于在本地测试程序，集群模式用于实际运行中。本地模式和伪集群模式非常类似，只是在hadoop的配置上有一点差别，这里先介绍hadoop的伪集群模式的阅读全文

posted @ 2012-11-09 22:57 飞天的白猪阅读(150) 评论(0) 推荐(0) 编辑

11 2012 档案

公告