摘要: 在master节点上的hadoop安装目录下进入conf目录配置hdfs-site.xml文件添加节点如下:dfs.hosts.excludehome/hadoop/hadoop-0.20.2/conf/excludes节点的值为excludes文件的路径该文件的内容为要下架的节点的ip地址或者主机... 阅读全文
posted @ 2015-02-11 18:41 蒋源德 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 现有数据如下:3 33 23 12 22 11 1要求为:先按第一列从小到大排序,如果第一列相同,按第二列从小到大排序如果是hadoop默认的排序方式,只能比较key,也就是第一列,而value是无法参与排序的这时候就需要用到自定义的排序规则解决思路:自定义数据类型,将原本的key和value都包装... 阅读全文
posted @ 2015-02-11 18:03 蒋源德 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设置默认分区的代码,见代码: //1.3分区 //设置自定义分区类 job.setPartition... 阅读全文
posted @ 2015-02-11 16:47 蒋源德 阅读(286) 评论(0) 推荐(0) 编辑
摘要: 还是使用之前的单词计数的例子自定义Mapper类import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.... 阅读全文
posted @ 2015-02-11 16:32 蒋源德 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 通过API操作之前要先了解几个基本知识一、hadoop的基本数据类型和java的基本数据类型是不一样的,但是都存在对应的关系如下图如果需要定义自己的数据类型,则必须实现Writablehadoop的数据类型可以通过get方法获得对应的java数据类型而java的数据类型可以通过hadoop数据类名的... 阅读全文
posted @ 2015-02-11 15:52 蒋源德 阅读(363) 评论(0) 推荐(0) 编辑