随笔 - 371  文章 - 0  评论 - 12  阅读 - 243万

随笔分类 -  hadoop

1 2 下一页
hadoop pipes wordcount compile
摘要:http://devel.cs.stolaf.edu/projects/bw/wiki.real/index.php/Hadoop_Reference,_January_2011http://guoyunsky.iteye.com/blog/1709392http://stackoverflow.c... 阅读全文
posted @ 2014-06-16 09:55 阿笨猫 编辑
Hadoop Pipes Exception: Illegal text protocol command
摘要:Hadoop Pipes Exception: Illegal text protocol command对于Hadoop pipes 出现这样的错误,基本上编译代码依赖的.so和.a 版本不匹配网上也没有给出更多信息,我的同事最近回复了解决办法,可以参考https://groups.google.... 阅读全文
posted @ 2014-06-15 09:44 阿笨猫 编辑
hadoop的版本问题
摘要:现在hadoop的版本比较乱,常常搞不清楚版本之间的关系,下面简单的摘要了,apache hadoop和cloudera hadoop 的版本的演化. apache hadoop官方给出的版本说明是: 1.0.X - current stable version, 1.0 release 1.1.X - current beta version, 1.1 release 2.X.X - cu... 阅读全文
posted @ 2013-04-04 19:48 阿笨猫 编辑
hadoop streaming 记录
摘要:最近想简单的学下streaming,主要是使用python,python+hadoop在前篇博文中也有例外介绍,挺有意思.C++的话有机会也想尝试下.记录看到的一些网页,作为备忘记录下来http://hadoop.apache.org/docs/r0.19.2/cn/streaming.html#Hadoop+Streaming 中文的,虽然版本比较老了http://hadoop.apache.org/docs/stable/streaming.html 最新版本http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce- 阅读全文
posted @ 2013-02-05 23:21 阿笨猫 编辑
hadoop streaming和pipes资料
摘要:streaminghttp://hadoop.apache.org/common/docs/r0.21.0/cn/streaming.html#Hadoop+Streaminghttp://dongxicheng.org/mapreduce/hadoop-streaming-programming/http://dongxicheng.org/mapreduce/hadoop-streaming-advanced-programming/http://blog.csdn.net/yfkiss/article/category/817084pipeshttp://www.wikieno.com/ 阅读全文
posted @ 2012-06-07 17:36 阿笨猫 编辑
关于Hadoop中的采样器
摘要:1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/简单的来说就是解决"How to automatically find “good” partitioning function",因为很多时候无法直接制订固定的partitioner策略,所以需要知道实际的数据分布.糟糕的策略导致的结果就是每个reduce节点得到的数据部均匀, 阅读全文
posted @ 2012-03-04 12:11 阿笨猫 编辑
关于MultipleOutputFormat若干小记
摘要:使用版本是0.19.2,据说0.20以后,MultipleOutputFormat不好使,不知道真假api可以参考http://hadoop.apache.org/common/docs/r0.19.2/api/但是说老实话,光看api有的时候有点混乱,每个函数到底影响些啥呢?protected KgenerateActualKey(Kkey, Vvalue) Generate the actual key from the given key/value.protected VgenerateActualValue(Kkey, Vvalue) Generate the actual valu 阅读全文
posted @ 2012-02-23 18:58 阿笨猫 编辑
Cloudera Desktop, a New Hadoop Management Tool
摘要:http://www.slideshare.net/hadoopusergroup/cloudera-desktophttp://www.harshj.com/2010/06/01/cloudera-desktop-and-hadoop-distribution-on-archlinux/http://blog.milford.io/2010/06/setting-up-clouderas-hadoop-cdh2-distribution-on-centos/http://www.cloudera.com/blog/2009/10/introducing-cloudera-desktop/ht 阅读全文
posted @ 2012-01-17 18:41 阿笨猫 编辑
eclipse 调试hadoop程序到一个错误
摘要:最近在单机调试mapreduce程序到时候,由于代码里面有中文,我就将eclipse的编码从默认到utf8调成了gbk,然后就发现原先可以运行到程序,现在不能运行了java.io.IOException: Expecting a line not the end of streamat org.apache.hadoop.fs.DF.parseExecResult(DF.java:109)报错信息和下面到基本是一致的,解决办法参见下面到解释http://hi.baidu.com/amdkings/blog/item/b589a5f56c1ddae17609d78f.html系统是 ubuntu 阅读全文
posted @ 2011-10-11 21:00 阿笨猫 编辑
Hadoop作业提交分析(五)
摘要:http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html经过上一篇的分析,我们知道了Hadoop的作业提交目标是Cluster还是Local,与conf文件夹内的配置文件参数有着密切关系,不仅如此,其它的很多类都跟conf有关,所以提交作业时切记把conf放到你的classpath中。 因为Configuration是利用当前线程上下文的类加载器来加载资源和文件的,所以这里我们采用动态载入的方式,先添加好对应的依赖库和资源,然后再构建一个URLClassLoader作为当前线程上下文的类加载器。Code highlightin.. 阅读全文
posted @ 2011-09-09 16:22 阿笨猫 编辑
Hadoop作业提交分析(四)
摘要:http://www.cnblogs.com/spork/archive/2010/04/21/1717552.html前面我们所分析的部分其实只是Hadoop作业提交的前奏曲,真正的作业提交代码是在MR程序的main里,RunJar在最后会动态调用这个main,在(二)里有说明。我们下面要做的就是要比RunJar更进一步,让作业提交能在编码时就可实现,就像Hadoop Eclipse Plugin那样可以对包含Mapper和Reducer的MR类直接Run on Hadoop。 一般来说,每个MR程序都会有这么一段类似的作业提交代码,这里拿WordCount的举例: Code highl.. 阅读全文
posted @ 2011-09-09 16:21 阿笨猫 编辑
Hadoop作业提交分析(三)
摘要:http://www.cnblogs.com/spork/archive/2010/04/12/1710294.html 通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。 第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件夹存储起来,后面再作为类加载器的URL搜索路径。 Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlight.. 阅读全文
posted @ 2011-09-08 08:51 阿笨猫 编辑
Hadoop作业提交分析(二)
摘要:http://www.cnblogs.com/spork/archive/2010/04/11/1709380.html上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。 RunJar是Hadoop中的一个工具类,结构很简单,只有两个方法:main和unJar。我们从main开始一步步分析。 main首先检查传递参数是否符合要求,然后从第一个传递参数中获取jar包的名字,并试图从jar中包中获取manifest. 阅读全文
posted @ 2011-09-06 22:30 阿笨猫 编辑
Hadoop作业提交分析(一)
摘要:http://www.cnblogs.com/spork/archive/2010/04/07/1706162.htmlCode highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->bin/hadoop jar xxx.jar mainclass args…… 这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hadoop Cluster上去运行,在开发 阅读全文
posted @ 2011-09-06 22:08 阿笨猫 编辑
Yahoo! Hadoop Tutorial
摘要:保存一个http://developer.yahoo.com/hadoop/tutorial/index.html 阅读全文
posted @ 2011-09-06 17:13 阿笨猫 编辑
mapreduce的二次排序 SecondarySort
摘要:关于二次排序主要涉及到这么几个东西:在0.20.0以前使用的是setPartitionerClasssetOutputkeyComparatorClasssetOutputValueGroupingComparator在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawComparator c);下面的例子里面只用到了setGroupingComparatorClasshttp://blog 阅读全文
posted @ 2011-09-03 21:02 阿笨猫 编辑
ChainMapper和ChainReducer
摘要:The ChainMapper class allows to use multiple Mapper classes within a single Map task.The ChainReducer class allows to chain multiple Mapper classes after a Reducer within the Reducer task.http://www.oratea.net/?p=371通过ChainMapper可以将多个map类合并成一个map任务。下面个这个例子没什么实际意思,但是很好的演示了ChainMapper的作用。源文件100 tom 90 阅读全文
posted @ 2011-09-03 20:31 阿笨猫 编辑
tutorial sort reducer input values in hadoop
摘要:http://www.riccomini.name/Topics/DistributedComputing/Hadoop/SortByValue/I recently found the need to sort by value (intead of key) in Hadoop. I've seen some comments that call this a "secondary sort". Essentially, I wanted the reducer's values iterator to be sorted. There seem to 阅读全文
posted @ 2011-09-01 21:04 阿笨猫 编辑
hadoop 0.20 程式開發 eclipse plugin + Makefile
摘要:http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617#%E9%9B%B6.%E5%89%8D%E8%A8%80http://qa.taobao.com/?p=10659http://ebiquity.umbc.edu/Tutorials/Hadoop/20%20-%20upload%20data.htmlhadoop 0.20 程式開發 eclipse plugin + Makefile 零. 前言¶開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練 阅读全文
posted @ 2011-09-01 16:51 阿笨猫 编辑
HDFS 读写流程
摘要:http://blog.endlesscode.com/2010/06/16/hdfs-short-intro/一、HDFSHDFS全称是Hadoop Distributed System。HDFS是为以流的方式存取大文件而设计的。适用于几百MB,GB以及TB,并写一次读多次的场合。而对于低延时数据访问、大量小文件、同时写和任意的文件修改,则并不是十分适合。目前HDFS支持的使用接口除了Java的还有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk组织其文件内容的,默认的block大小为64MB,对于不足64MB的文件,其会占用一个bloc 阅读全文
posted @ 2011-09-01 16:29 阿笨猫 编辑

1 2 下一页

点击右上角即可分享
微信分享提示