摘要: 我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API,我之后的学习中没有额外说明,均使用的新的API。下面简单介绍一下新旧API的区别: (1)新的API倾向于使用抽象类,而不是接口。新的API中Mapper和Reducer是抽象类。 (2)新的API在org.apache.hadoop.mapreduce包和子包中,旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错,程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点,程序出... 阅读全文
posted @ 2011-09-29 16:16 午后的猫 阅读(896) 评论(0) 推荐(0) 编辑
摘要: 今天写了个java的小程序在运行的时候抛出下面的异常:java.lang.NumberFormatException: For input string: "1 9" 。定位到源程序中出错的地方: String[] cols = key.toString().split(" "); return Integer.parseInt(cols[0]) % numPartitions; 通过查询java API 以及百度,了解到抛NumberFormatException的情况为:当程序试图将一个字符串转换为一种数据类型,但是该字符串无法按要求转换成相应的类型 阅读全文
posted @ 2011-09-28 21:12 午后的猫 阅读(20516) 评论(1) 推荐(1) 编辑
摘要: 本文转自:http://labs.chinamobile.com/mblogs/573_23352接下来我们按照MapReduce过程中数据流动的顺序,来分解org.apache.hadoop.mapreduce.lib.*的相关内容,并介绍对应的基类的功能。首先是input部分,它实现了MapReduce的数据输入部分。类图如下:类图的右上角是InputFormat,它描述了一个MapReduce Job的输入,通过InputFormat,Hadoop可以:l 检查MapReduce输入数据的正确性;l 将输入数据切分为逻辑块InputSplit,这些块会分配给Mapper;l 提供一个R. 阅读全文
posted @ 2011-09-26 08:34 午后的猫 阅读(5450) 评论(0) 推荐(1) 编辑
摘要: 本文转自:http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了,以前只是懂得基本的架构了使用,最近在做一个系统,觉得很多东西可以借鉴MapReduce的 可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configuration类,真的觉 得Hadoop的配置是值得借鉴的,学到了很多!下面是Configuration类的属性清单: Log是记录日志的对象。quietmode对应的是配置信息加载过程中是否属于静默的模式,如果处于静 阅读全文
posted @ 2011-09-24 10:54 午后的猫 阅读(1910) 评论(0) 推荐(0) 编辑
摘要: 本问转自:http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD sk 阅读全文
posted @ 2011-09-24 09:57 午后的猫 阅读(1066) 评论(1) 推荐(1) 编辑
摘要: 本文转自:http://1985wanggang.blog.163.com/blog/static/7763833201131933828371/Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference be 阅读全文
posted @ 2011-09-23 09:40 午后的猫 阅读(657) 评论(0) 推荐(0) 编辑
摘要: Hadoop方面:(1)http://www.hadoopor.com Hadoop技术论坛,云计算与hadoop全方面。(2)http://roserouge.iteye.com/ Hadoop实际运行中遇到的问题以及以及MapReduce编程知识。(3)http://www.javabloger.com/ 一个质量很高且全面的博客,里面有关于云计算和hadoop方面。(4)http://www.cnblogs.com/spork/ 几乎所有博文全部是关于Hadoop和云计算的。(5)http://blog.csdn.net/zhoujq/article/ 全部是hadoop方面文章。(7) 阅读全文
posted @ 2011-09-21 20:40 午后的猫 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 本文转载自:http://hi.baidu.com/lzpsky/blog/item/99d58738b08a68e7b311c70d.html hadoop会对原始输入文件进行文件切割,然后把每个split传入mapper程序中进行处理,FileInputFormat是所有以文件作为数据源的InputFormat实现的基类,FileInputFormat保存作为job输入的所有文件,并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类进行实现的。 那么,FileInputFormat是怎样将他们划分成splits的呢?FileInputFormat只划分比HD... 阅读全文
posted @ 2011-09-19 16:53 午后的猫 阅读(2653) 评论(0) 推荐(1) 编辑
摘要: 最近需要在Ubuntu下用Eclipse写MapReduce的程序,现记录下需要在Eclipse做哪些配置,部署好一个Mapeduce工程。1.在Ubuntu下将Hadoop安装并配置好。2.找一个可以在Ubuntu下运行的Eclipse。Hadoop自带了Eclipse的插件,在Hadoo的安装软件包的contrib/eclipse-plugin下有hadoop-0.20-eclipse-plugin.jar文件,在确保eclipse关闭的情况下将该文件拷贝到eclipse安装目录下的plugins下。3.打开Eclipse,点击主菜单下Window--preferences,在左边栏里.. 阅读全文
posted @ 2011-09-15 22:14 午后的猫 阅读(1733) 评论(0) 推荐(0) 编辑
摘要: 想在Ubuntu下手动编译安装一个软件,在./configure 命令之后提示下面的错误: configure: error: C++ compiler cannot create executables猜测可能是C++编译器的原因,baidu了一下,网上关于这个错误的信息很多,得知是没有安装gcc或者装了gcc没装g++,我的Ubuntu没有安装g++,安装命令:sudo apt-get install g++,最好也先执行一下sudo apt-get install gcc(如果已安装,执行该命令也不会出错,系统检查到已安装则不会再安装了),上面两条命令执行结束之后,再./configu. 阅读全文
posted @ 2011-07-22 21:57 午后的猫 阅读(6960) 评论(0) 推荐(0) 编辑