雨渐渐

hadoop Yarn 编程API

摘要：客户端编程库：所在jar包： org.apache.hadoop.yarn.client.YarnClient使用方法：1 定义一个YarnClient实例： private YarnClient client；2 构造一个Yarn客户端句柄并初始化 this.client = YarnClient.createYarnClient(); client.ini(conf)3 启动Yarn yarnClient.start()4 获取一个新的application id YarnClientApplication app=yarnClient.createApplication(... 阅读全文

posted @ 2014-04-02 17:04 雨渐渐阅读(13578) 评论(1) 推荐(0) 编辑

YARN应用程序开发流程（类似于MapReduce On Yarn）本内容版权归（小象学院所有）

摘要： MapReduce On Yarn和MapReduce程序区别MapReduce On Yarn（由专业人员开发）1 为MapReduce作业运行在YARN上提供一个通用的运行时环境2 需要与Yarn的各个服务交互（包括ResourceManager，NodeManager），完成较为复杂的功能（比方资源申请，跟对应的NodeManager通信启动任务）3 由客户端和ApplicationMaster两部分组成。备注：通常不需要开发，因为MapRed Storm， Spark等都提供了已经写好了组件。但是如果有新的运行框架，需要运行在yarn上，则需要自己编写配套的组件了。对开发者要求：1 只阅读全文

posted @ 2014-04-02 15:20 雨渐渐阅读(1242) 评论(0) 推荐(0) 编辑

运行在YARN上的MapReduce应用程序（以MapReduce为例）

摘要： client作用：提交一个应用程序查看一个应用程序的运行状态（通过application master）第一步：提交MR程序到ResourceManager，ResourceManager为这个应用程序的ApplicationMaster申请资源，申请到资源后第二步：与资源对应的NodeManager通信，让其启动MR App Mstr,第三，四步：MR App Mstr启动起来后，跟RM交互，申请资源，比如拿到的资源在另一个节点第五，六步：MR App Mstr与资源对应的NodeManager通信来启动Task，Task是放在Container里的第七步：启动后的Tasks直接与MR Ap 阅读全文

posted @ 2014-04-02 15:01 雨渐渐阅读(585) 评论(0) 推荐(0) 编辑

hadoop的一些重要配置参数

摘要： hadoop集群管理内存设置Mapreduce内存使用设置hadoop job重要性能参数阅读全文

posted @ 2014-03-31 10:13 雨渐渐阅读(182) 评论(0) 推荐(0) 编辑

linux vim 插件

摘要： http://blog.csdn.net/happyteafriends/article/details/8571526以我的ubuntu 12.10为例，安装了vim之后，已经自带了python插件ls/usr/share/vim/vim73/autoload/adacomplete.vimnetrwFileHandlers.vimsqlcomplete.vimada.vimnetrwSettings.vimsyntaxcomplete.vimccomplete.vimnetrw.vimtar.vimcsscomplete.vimpaste.vimtohtml.vimdecada.vimph 阅读全文

posted @ 2014-03-27 08:38 雨渐渐阅读(762) 评论(0) 推荐(0) 编辑

shuffle ----- mr 董西城

摘要： http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/ 阅读全文

posted @ 2014-03-26 17:50 雨渐渐阅读(370) 评论(0) 推荐(0) 编辑

常用的linux命令

摘要：解码：cat ip.txt | iconv -f utf8 -t gbk -c | less查看linux版本lsb_release -a 列出文件或文件夹的大小du -ah ./du -sh dira=allh=human-readable 即以k m g t 为单位查看硬盘空间df -lh解压和... 阅读全文

posted @ 2014-03-24 15:15 雨渐渐阅读(303) 评论(0) 推荐(0) 编辑

hadoop 常用配置项

摘要： core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径，官方文档说是读取这个，写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间，秒为单位，只对snn生效，默认一小时fs.checkpoint.size33554432以日志大小间隔做备份间隔，只对snn生效，默认64 阅读全文

posted @ 2014-03-24 13:21 雨渐渐阅读(1062) 评论(0) 推荐(0) 编辑

hadoop 异常处理实例（一）hadoop内存配置项

摘要： Exception in thread "main" java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.parse.ParseSegment.parse(ParseSegment.java:209) at org.apache.nutch.crawl.Crawl.run(Crawl.java:143) at org.apache.hadoop.util.... 阅读全文

posted @ 2014-03-24 10:49 雨渐渐阅读(351) 评论(0) 推荐(1) 编辑

nutch 异常集锦