hadoop - 随笔分类 - 阿笨猫

hadoop pipes wordcount compile

摘要：http://devel.cs.stolaf.edu/projects/bw/wiki.real/index.php/Hadoop_Reference,_January_2011http://guoyunsky.iteye.com/blog/1709392http://stackoverflow.c... 阅读全文

posted @ 2014-06-16 09:55 阿笨猫

Hadoop Pipes Exception: Illegal text protocol command

摘要：Hadoop Pipes Exception: Illegal text protocol command对于Hadoop pipes 出现这样的错误,基本上编译代码依赖的.so和.a 版本不匹配网上也没有给出更多信息,我的同事最近回复了解决办法,可以参考https://groups.google.... 阅读全文

posted @ 2014-06-15 09:44 阿笨猫

hadoop的版本问题

摘要：现在hadoop的版本比较乱,常常搞不清楚版本之间的关系,下面简单的摘要了,apache hadoop和cloudera hadoop 的版本的演化. apache hadoop官方给出的版本说明是: 1.0.X - current stable version, 1.0 release 1.1.X - current beta version, 1.1 release 2.X.X - cu... 阅读全文

posted @ 2013-04-04 19:48 阿笨猫

hadoop streaming 记录

摘要：最近想简单的学下streaming,主要是使用python,python+hadoop在前篇博文中也有例外介绍,挺有意思.C++的话有机会也想尝试下.记录看到的一些网页,作为备忘记录下来http://hadoop.apache.org/docs/r0.19.2/cn/streaming.html#Hadoop+Streaming 中文的,虽然版本比较老了http://hadoop.apache.org/docs/stable/streaming.html 最新版本http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce- 阅读全文

posted @ 2013-02-05 23:21 阿笨猫

hadoop streaming和pipes资料

摘要：streaminghttp://hadoop.apache.org/common/docs/r0.21.0/cn/streaming.html#Hadoop+Streaminghttp://dongxicheng.org/mapreduce/hadoop-streaming-programming/http://dongxicheng.org/mapreduce/hadoop-streaming-advanced-programming/http://blog.csdn.net/yfkiss/article/category/817084pipeshttp://www.wikieno.com/ 阅读全文

posted @ 2012-06-07 17:36 阿笨猫

关于Hadoop中的采样器

摘要：1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/简单的来说就是解决"How to automatically find “good” partitioning function",因为很多时候无法直接制订固定的partitioner策略,所以需要知道实际的数据分布.糟糕的策略导致的结果就是每个reduce节点得到的数据部均匀, 阅读全文

posted @ 2012-03-04 12:11 阿笨猫

关于MultipleOutputFormat若干小记

摘要：使用版本是0.19.2,据说0.20以后,MultipleOutputFormat不好使,不知道真假api可以参考http://hadoop.apache.org/common/docs/r0.19.2/api/但是说老实话,光看api有的时候有点混乱,每个函数到底影响些啥呢?protected KgenerateActualKey(Kkey, Vvalue) Generate the actual key from the given key/value.protected VgenerateActualValue(Kkey, Vvalue) Generate the actual valu 阅读全文

posted @ 2012-02-23 18:58 阿笨猫

Cloudera Desktop, a New Hadoop Management Tool

摘要：http://www.slideshare.net/hadoopusergroup/cloudera-desktophttp://www.harshj.com/2010/06/01/cloudera-desktop-and-hadoop-distribution-on-archlinux/http://blog.milford.io/2010/06/setting-up-clouderas-hadoop-cdh2-distribution-on-centos/http://www.cloudera.com/blog/2009/10/introducing-cloudera-desktop/ht 阅读全文

posted @ 2012-01-17 18:41 阿笨猫

eclipse 调试hadoop程序到一个错误

摘要：最近在单机调试mapreduce程序到时候，由于代码里面有中文，我就将eclipse的编码从默认到utf8调成了gbk，然后就发现原先可以运行到程序，现在不能运行了java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)报错信息和下面到基本是一致的，解决办法参见下面到解释http://hi.baidu.com/amdkings/blog/item/b589a5f56c1ddae17609d78f.html系统是 ubuntu 阅读全文

posted @ 2011-10-11 21:00 阿笨猫

Hadoop作业提交分析（五）

摘要：http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html经过上一篇的分析，我们知道了Hadoop的作业提交目标是Cluster还是Local，与conf文件夹内的配置文件参数有着密切关系，不仅如此，其它的很多类都跟conf有关，所以提交作业时切记把conf放到你的classpath中。因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的，所以这里我们采用动态载入的方式，先添加好对应的依赖库和资源，然后再构建一个URLClassLoader作为当前线程上下文的类加载器。Code highlightin.. 阅读全文

posted @ 2011-09-09 16:22 阿笨猫

Hadoop作业提交分析（四）

摘要：http://www.cnblogs.com/spork/archive/2010/04/21/1717552.html前面我们所分析的部分其实只是Hadoop作业提交的前奏曲，真正的作业提交代码是在MR程序的main里，RunJar在最后会动态调用这个main，在（二）里有说明。我们下面要做的就是要比RunJar更进一步，让作业提交能在编码时就可实现，就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。一般来说，每个MR程序都会有这么一段类似的作业提交代码，这里拿WordCount的举例： Code highl.. 阅读全文

posted @ 2011-09-09 16:21 阿笨猫

Hadoop作业提交分析（三）

摘要：http://www.cnblogs.com/spork/archive/2010/04/12/1710294.html 通过前面两篇文章的分析，对Hadoop的作业提交流程基本明了了，下面我们就可以开始编写代码模拟这个流程。第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来，后面再作为类加载器的URL搜索路径。 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlight.. 阅读全文

posted @ 2011-09-08 08:51 阿笨猫

Hadoop作业提交分析（二）

摘要：http://www.cnblogs.com/spork/archive/2010/04/11/1709380.html上一篇我们分析了bin/hadoop脚本，知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar，看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类，结构很简单，只有两个方法：main和unJar。我们从main开始一步步分析。 main首先检查传递参数是否符合要求，然后从第一个传递参数中获取jar包的名字，并试图从jar中包中获取manifest. 阅读全文

posted @ 2011-09-06 22:30 阿笨猫

Hadoop作业提交分析（一）

摘要：http://www.cnblogs.com/spork/archive/2010/04/07/1706162.htmlCode highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->bin/hadoop jar xxx.jar mainclass args…… 这样的命令，各位玩Hadoop的估计已经调用过NN次了，每次写好一个Project或对Project做修改后，都必须打个Jar包，然后再用上面的命令提交到Hadoop Cluster上去运行，在开发阅读全文

posted @ 2011-09-06 22:08 阿笨猫

Yahoo! Hadoop Tutorial

摘要：保存一个http://developer.yahoo.com/hadoop/tutorial/index.html 阅读全文

posted @ 2011-09-06 17:13 阿笨猫

mapreduce的二次排序 SecondarySort

摘要：关于二次排序主要涉及到这么几个东西：在0.20.0以前使用的是setPartitionerClasssetOutputkeyComparatorClasssetOutputValueGroupingComparator在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawComparator c);下面的例子里面只用到了setGroupingComparatorClasshttp://blog 阅读全文

posted @ 2011-09-03 21:02 阿笨猫

ChainMapper和ChainReducer

摘要：The ChainMapper class allows to use multiple Mapper classes within a single Map task.The ChainReducer class allows to chain multiple Mapper classes after a Reducer within the Reducer task.http://www.oratea.net/?p=371通过ChainMapper可以将多个map类合并成一个map任务。下面个这个例子没什么实际意思，但是很好的演示了ChainMapper的作用。源文件100 tom 90 阅读全文

posted @ 2011-09-03 20:31 阿笨猫

tutorial sort reducer input values in hadoop

摘要：http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/I recently found the need to sort by value (intead of key) in Hadoop. I've seen some comments that call this a "secondary sort". Essentially, I wanted the reducer's values iterator to be sorted. There seem to 阅读全文

posted @ 2011-09-01 21:04 阿笨猫

hadoop 0.20 程式開發 eclipse plugin + Makefile

摘要：http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617#%E9%9B%B6.%E5%89%8D%E8%A8%80http://qa.taobao.com/?p=10659http://ebiquity.umbc.edu/Tutorials/Hadoop/20%20-%20upload%20data.htmlhadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言¶開發hadoop 需要用到許多的物件導向語法，包括繼承關係、介面類別，而且需要匯入正確的classpath，否則寫hadoop程式只是打字練阅读全文

posted @ 2011-09-01 16:51 阿笨猫

HDFS 读写流程

摘要：http://blog.endlesscode.com/2010/06/16/hdfs-short-intro/一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB，GB以及TB，并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改，则并不是十分适合。目前HDFS支持的使用接口除了Java的还有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的，默认的block大小为64MB，对于不足64MB的文件，其会占用一个bloc 阅读全文

posted @ 2011-09-01 16:29 阿笨猫

随笔分类 - hadoop