2014年4月2日

关于如何设置reduce的个数

摘要: 在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式: 0.95 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tasks.maximum 1.75 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tas... 阅读全文

posted @ 2014-04-02 18:16 雨渐渐 阅读(2422) 评论(0) 推荐(0) 编辑

hadoop Yarn 编程API

摘要: 客户端编程库:所在jar包: org.apache.hadoop.yarn.client.YarnClient使用方法:1 定义一个YarnClient实例: private YarnClient client;2 构造一个Yarn客户端句柄并初始化 this.client = YarnClient.createYarnClient(); client.ini(conf)3 启动Yarn yarnClient.start()4 获取一个新的application id YarnClientApplication app=yarnClient.createApplication(... 阅读全文

posted @ 2014-04-02 17:04 雨渐渐 阅读(13578) 评论(1) 推荐(0) 编辑

YARN应用程序开发流程(类似于MapReduce On Yarn)本内容版权归(小象学院所有)

摘要: MapReduce On Yarn和MapReduce程序区别MapReduce On Yarn(由专业人员开发)1 为MapReduce作业运行在YARN上提供一个通用的运行时环境2 需要与Yarn的各个服务交互(包括ResourceManager,NodeManager),完成较为复杂的功能(比方资源申请,跟对应的NodeManager通信启动任务)3 由客户端和ApplicationMaster两部分组成。备注:通常不需要开发,因为MapRed Storm, Spark等都提供了已经写好了组件。但是如果有新的运行框架,需要运行在yarn上,则需要自己编写配套的组件了。对开发者要求:1 只 阅读全文

posted @ 2014-04-02 15:20 雨渐渐 阅读(1242) 评论(0) 推荐(0) 编辑

运行在YARN上的MapReduce应用程序(以MapReduce为例)

摘要: client作用:提交一个应用程序查看一个应用程序的运行状态(通过application master)第一步:提交MR程序到ResourceManager,ResourceManager为这个应用程序的ApplicationMaster申请资源,申请到资源后第二步:与资源对应的NodeManager通信,让其启动MR App Mstr,第三,四步:MR App Mstr启动起来后,跟RM交互,申请资源,比如拿到的资源在另一个节点第五,六步:MR App Mstr与资源对应的NodeManager通信来启动Task,Task是放在Container里的第七步:启动后的Tasks直接与MR Ap 阅读全文

posted @ 2014-04-02 15:01 雨渐渐 阅读(585) 评论(0) 推荐(0) 编辑

导航