午后的猫 - 博客园

2011年9月29日

摘要：我使用的hadoop的版本为0.20.2。Hadoop从0.20.0版本加入了新的MapReduce Java API，我之后的学习中没有额外说明，均使用的新的API。下面简单介绍一下新旧API的区别：（1）新的API倾向于使用抽象类，而不是接口。新的API中Mapper和Reducer是抽象类。（2）新的API在org.apache.hadoop.mapreduce包和子包中，旧版的API放在org.apache.hadoop.mapred中。在编程中一定要注意两个包不要混用或者用错，程序中要正确统一的的import进新包或者旧包。我在刚开始写代码的时候由于没有注意这一点，程序出... 阅读全文

posted @ 2011-09-29 16:16 午后的猫阅读(920) 评论(0) 推荐(0)

2011年9月28日

java.lang.NumberFormatException: For input string: "1 9"

摘要：今天写了个java的小程序在运行的时候抛出下面的异常：java.lang.NumberFormatException: For input string: "1 9" 。定位到源程序中出错的地方： String[] cols = key.toString().split(" "); return Integer.parseInt(cols[0]) % numPartitions; 通过查询java API 以及百度，了解到抛NumberFormatException的情况为：当程序试图将一个字符串转换为一种数据类型，但是该字符串无法按要求转换成相应的类型阅读全文

posted @ 2011-09-28 21:12 午后的猫阅读(20550) 评论(1) 推荐(1)

2011年9月26日

[转]hadoop FileInputFormat详解额

摘要：本文转自：http://labs.chinamobile.com/mblogs/573_23352接下来我们按照MapReduce过程中数据流动的顺序，来分解org.apache.hadoop.mapreduce.lib.*的相关内容，并介绍对应的基类的功能。首先是input部分，它实现了MapReduce的数据输入部分。类图如下：类图的右上角是InputFormat，它描述了一个MapReduce Job的输入，通过InputFormat，Hadoop可以：l 检查MapReduce输入数据的正确性；l 将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；l 提供一个R. 阅读全文

posted @ 2011-09-26 08:34 午后的猫阅读(5526) 评论(0) 推荐(1)

2011年9月24日

[转]Hadoop源码分析之Configuration配置

摘要：本文转自：http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了，以前只是懂得基本的架构了使用，最近在做一个系统，觉得很多东西可以借鉴MapReduce的可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configuration类，真的觉得Hadoop的配置是值得借鉴的，学到了很多！下面是Configuration类的属性清单： Log是记录日志的对象。quietmode对应的是配置信息加载过程中是否属于静默的模式，如果处于静阅读全文

posted @ 2011-09-24 10:54 午后的猫阅读(1931) 评论(0) 推荐(0)

[转] 研究云计算与海量数据处理方向建议看的论文列表

摘要：本问转自：http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD sk 阅读全文

posted @ 2011-09-24 09:57 午后的猫阅读(1118) 评论(1) 推荐(1)

2011年9月23日

[转] hadoop面试可能遇到的问题

摘要：本文转自：http://1985wanggang.blog.163.com/blog/static/7763833201131933828371/Q1. Name the most common InputFormats defined inHadoop? Which one is default ?Following 2 are most common InputFormats defined inHadoop- TextInputFormat- KeyValueInputFormat- SequenceFileInputFormatQ2. What is the difference be 阅读全文

posted @ 2011-09-23 09:40 午后的猫阅读(668) 评论(0) 推荐(0)

2011年9月21日

记录对自己有帮助的博客及论坛

摘要： Hadoop方面：（1）http://www.hadoopor.com Hadoop技术论坛，云计算与hadoop全方面。（2）http://roserouge.iteye.com/ Hadoop实际运行中遇到的问题以及以及MapReduce编程知识。（3）http://www.javabloger.com/ 一个质量很高且全面的博客，里面有关于云计算和hadoop方面。（4）http://www.cnblogs.com/spork/ 几乎所有博文全部是关于Hadoop和云计算的。（5）http://blog.csdn.net/zhoujq/article/ 全部是hadoop方面文章。（7）阅读全文

posted @ 2011-09-21 20:40 午后的猫阅读(201) 评论(0) 推荐(0)

2011年9月19日

[转]自定义hadoop map/reduce输入文件切割InputFormat

摘要：本文转载自：http://hi.baidu.com/lzpsky/blog/item/99d58738b08a68e7b311c70d.html hadoop会对原始输入文件进行文件切割，然后把每个split传入mapper程序中进行处理，FileInputFormat是所有以文件作为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类进行实现的。那么，FileInputFormat是怎样将他们划分成splits的呢？FileInputFormat只划分比HD... 阅读全文

posted @ 2011-09-19 16:53 午后的猫阅读(2675) 评论(0) 推荐(1)

2011年9月15日

ubuntu下用Eclipse写MapReduce程序时的配置

摘要：最近需要在Ubuntu下用Eclipse写MapReduce的程序，现记录下需要在Eclipse做哪些配置，部署好一个Mapeduce工程。1.在Ubuntu下将Hadoop安装并配置好。2.找一个可以在Ubuntu下运行的Eclipse。Hadoop自带了Eclipse的插件，在Hadoo的安装软件包的contrib/eclipse-plugin下有hadoop-0.20-eclipse-plugin.jar文件，在确保eclipse关闭的情况下将该文件拷贝到eclipse安装目录下的plugins下。3.打开Eclipse，点击主菜单下Window--preferences，在左边栏里.. 阅读全文

posted @ 2011-09-15 22:14 午后的猫阅读(1751) 评论(0) 推荐(0)

2011年7月22日

configure: error: C++ compiler cannot create executables

摘要：想在Ubuntu下手动编译安装一个软件，在./configure 命令之后提示下面的错误： configure: error: C++ compiler cannot create executables猜测可能是C++编译器的原因，baidu了一下，网上关于这个错误的信息很多，得知是没有安装gcc或者装了gcc没装g++，我的Ubuntu没有安装g++，安装命令：sudo apt-get install g++，最好也先执行一下sudo apt-get install gcc（如果已安装，执行该命令也不会出错，系统检查到已安装则不会再安装了），上面两条命令执行结束之后，再./configu. 阅读全文

posted @ 2011-07-22 21:57 午后的猫阅读(7142) 评论(0) 推荐(0)

公告