- 大部分是小作业,大多数运行几分钟或十几分钟.绝大多数在半小时之内。占用的slot数一般为几十到几百。
- 集群同时在运行的作业数比较多。繁忙的时候同时运行的作业有六百多个, 每天完成的作业数万个。
- 有些作业被分析多个要求顺序执行的小作业。各作业的依赖性比较大, 后面一组作业的开始时间受限前一组作业的结束时间
- Map slots与Reduce slots使用率不高,特别是Reduce Slots。
- 作业周期性比较明显,每个晚上1点到5点左右,集群处于相对忙的状态,白天很空闲。
- 作业时效性要求较强。大部分作业要求在上午8点前执行结束,特别是涉及前端产品,如量子统计、数据魔方等业务的作业。如果上班前作业没有执行完毕,会招来用户投诉。
- 为保证某些重要部门的作业及时完成,Hadoop集群资源按公司部门来划分使用,每个部门都一个资源使用量上限,某剖门里的作业只能在他所有部门的配给中申请资源。同一部门的作业资源使用总量不能超过那个上限。这点容易造成有些部门的资源很紧张,而某些部门的资源还有空余。
- 作业是有优先级,集群总是优先执行优先级高的作业,会发生资源抢占。杀掉某些低优先级的task,获得空闲slots。而且,与Hadoop自带的公平调度器不同,当某个TT有空闲slots时,不是分配给最缺乏slot的那个job,而是分配给优先级最高的job。
转自 http://cloud.hdu.edu.cn/wiki/index.php/%E7%AC%AC%E4%BA%8C%E6%9C%9F%EF%BC%9A%E6%B7%98%E5%AE%9DMapReduce%E4%BD%9C%E4%B8%9A%E7%89%B9%E6%80%A7%E5%88%86%E6%9E%90