随笔分类 -  Hadoop分布式

摘要:因为经常遇到各种错误,所以转载过来,以备忘:经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted""OS error code 2: No such file or directory""OS error code 3: No such process""OS error code 4: Interrupted system call" 阅读全文
posted @ 2012-03-28 17:17 ~大器晚成~ 阅读(1770) 评论(1) 推荐(0) 编辑
摘要:今天在使用hadoop时遇到一个需求,要将具有一定关系的若干个大表进行合并join,乍看起来比较困难。但是仔细分析了一下,还是可以比较好的解决问题的。况且在海量数据处理中,这是一个非常普遍常见的需求。因此写下来和大家分享一下。如果哪为仁兄看后有更好的办法,咱们也可以切磋一下。欢迎拍砖,哈哈。下面描述一下需求,有如下两种数据数据Akey value1 value2 value3...valuen数据Bvalue1 a1 a2 a3....anvalue2 b1 b2 b3....bn...valuen x1 x2 x3...xn目标数据key value1 a1 a2 a3...an value 阅读全文
posted @ 2012-03-01 17:13 ~大器晚成~ 阅读(8491) 评论(5) 推荐(1) 编辑
摘要:前两篇文章介绍了Hadoop Streaming框架的使用方法。由于篇幅所限,并没有介绍其中的高级使用方法,但是有一些用法还是相当常见的。今天对一些高级用法进行一个简单的说明,希望能给大家一些启发。 1 使用cacheFile分发文件 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将文件当作本地文件处理,,可以使用-cacheFile hdfs://host:port/path/to/file#linkname选项在计算节点缓存文件,Streaming程序通过./linkname访问文件。 例如: hadoop = `which hadoop` $hado... 阅读全文
posted @ 2012-01-16 23:20 ~大器晚成~ 阅读(18996) 评论(6) 推荐(3) 编辑
摘要:上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法。提交hadoop任务示例:$HADOOP_HOME/bin/hadoop streaming \-input /user/test/input -output /user/test/output \-mapper “mymapper.sh” -reducer “myreducer.sh” \-file/home/work/mymapper.sh \-file /home/work/myreducer.sh \-jobconf mapred.job.name=”file-demo”上面的命令提交了一个hadoop任务,输出和输入 阅读全文
posted @ 2012-01-16 12:49 ~大器晚成~ 阅读(4180) 评论(0) 推荐(0) 编辑
摘要:Streaming简介Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大,今天简单说一下。Streaming的原理是用Java实现一个包装用户程序的MapReduce程序,该程序负责调用MapReduce Java接口获取key/value对输入,创建一个新的进程启动包装的用户程序,将数据通过管道传递给包装的用户程序处理,然后调用MapReduce Java接口将用户程序的输出切分成key/value对输出。Streaming优点1 开发效率高,便于移植只要按照标准输入输出格式 阅读全文
posted @ 2012-01-16 11:47 ~大器晚成~ 阅读(34184) 评论(1) 推荐(2) 编辑
摘要:前一阵一直在使用hadoop集群,也积累了一些使用经验,本文分享一下hadoop的文件操作hadoop fs -touch [filepath] 在指定地方创建一个文件hadoop fs -get [filepath] [localpath] 将集群上的文件下载到本地hadoop fs -put [localfile] [filepath] 将本地文件上传到集群hadoop fs -cat [filepath] 查看集群上文件hadoop fs -rmr [filepath] 删除集群上的文件或文件夹(其实只是移动到回收站,回收站会每天定时清空,因此如果删错可以立刻去回收站找回来)hadoop 阅读全文
posted @ 2012-01-14 20:41 ~大器晚成~ 阅读(2961) 评论(0) 推荐(1) 编辑
摘要:转自:http://blog.csdn.net/liuxincumt/archive/2010/12/15/6076903.aspx经常遇到的exception是:PipeMapRed.waitOutputThreads(): subprocess failed with code N"OS error code 1: Operation not permitted" "OS error code 2: No such file or directory" "OS error code 3: No such process" &quo 阅读全文
posted @ 2012-01-13 18:20 ~大器晚成~ 阅读(5567) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示