上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 57 下一页

2014年4月2日

hadoop Yarn 编程API

摘要: 客户端编程库:所在jar包: org.apache.hadoop.yarn.client.YarnClient使用方法:1 定义一个YarnClient实例: private YarnClient client;2 构造一个Yarn客户端句柄并初始化 this.client = YarnClient.createYarnClient(); client.ini(conf)3 启动Yarn yarnClient.start()4 获取一个新的application id YarnClientApplication app=yarnClient.createApplication(... 阅读全文

posted @ 2014-04-02 17:04 雨渐渐 阅读(13578) 评论(1) 推荐(0) 编辑

YARN应用程序开发流程(类似于MapReduce On Yarn)本内容版权归(小象学院所有)

摘要: MapReduce On Yarn和MapReduce程序区别MapReduce On Yarn(由专业人员开发)1 为MapReduce作业运行在YARN上提供一个通用的运行时环境2 需要与Yarn的各个服务交互(包括ResourceManager,NodeManager),完成较为复杂的功能(比方资源申请,跟对应的NodeManager通信启动任务)3 由客户端和ApplicationMaster两部分组成。备注:通常不需要开发,因为MapRed Storm, Spark等都提供了已经写好了组件。但是如果有新的运行框架,需要运行在yarn上,则需要自己编写配套的组件了。对开发者要求:1 只 阅读全文

posted @ 2014-04-02 15:20 雨渐渐 阅读(1242) 评论(0) 推荐(0) 编辑

运行在YARN上的MapReduce应用程序(以MapReduce为例)

摘要: client作用:提交一个应用程序查看一个应用程序的运行状态(通过application master)第一步:提交MR程序到ResourceManager,ResourceManager为这个应用程序的ApplicationMaster申请资源,申请到资源后第二步:与资源对应的NodeManager通信,让其启动MR App Mstr,第三,四步:MR App Mstr启动起来后,跟RM交互,申请资源,比如拿到的资源在另一个节点第五,六步:MR App Mstr与资源对应的NodeManager通信来启动Task,Task是放在Container里的第七步:启动后的Tasks直接与MR Ap 阅读全文

posted @ 2014-04-02 15:01 雨渐渐 阅读(585) 评论(0) 推荐(0) 编辑

2014年3月31日

hadoop的一些重要配置参数

摘要: hadoop集群管理内存设置Mapreduce内存使用设置hadoop job重要性能参数 阅读全文

posted @ 2014-03-31 10:13 雨渐渐 阅读(182) 评论(0) 推荐(0) 编辑

2014年3月27日

linux vim 插件

摘要: http://blog.csdn.net/happyteafriends/article/details/8571526以我的ubuntu 12.10为例,安装了vim之后,已经自带了python插件ls/usr/share/vim/vim73/autoload/adacomplete.vimnetrwFileHandlers.vimsqlcomplete.vimada.vimnetrwSettings.vimsyntaxcomplete.vimccomplete.vimnetrw.vimtar.vimcsscomplete.vimpaste.vimtohtml.vimdecada.vimph 阅读全文

posted @ 2014-03-27 08:38 雨渐渐 阅读(762) 评论(0) 推荐(0) 编辑

2014年3月26日

shuffle ----- mr 董西城

摘要: http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 阅读全文

posted @ 2014-03-26 17:50 雨渐渐 阅读(370) 评论(0) 推荐(0) 编辑

2014年3月24日

常用的linux命令

摘要: 解码:cat ip.txt | iconv -f utf8 -t gbk -c | less查看linux版本lsb_release -a 列出文件或文件夹的大小du -ah ./du -sh dira=allh=human-readable 即以k m g t 为单位查看硬盘空间df -lh解压和... 阅读全文

posted @ 2014-03-24 15:15 雨渐渐 阅读(303) 评论(0) 推荐(0) 编辑

hadoop 常用配置项

摘要: core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间,秒为单位,只对snn生效,默认一小时fs.checkpoint.size33554432以日志大小间隔做备份间隔,只对snn生效,默认64 阅读全文

posted @ 2014-03-24 13:21 雨渐渐 阅读(1062) 评论(0) 推荐(0) 编辑

hadoop 异常处理实例(一)hadoop内存配置项

摘要: Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 10:49 雨渐渐 阅读(351) 评论(0) 推荐(1) 编辑

nutch 异常集锦

摘要: Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 09:10 雨渐渐 阅读(338) 评论(6) 推荐(0) 编辑

上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 57 下一页

导航