摘要: hive优化之------控制hive任务中的map数和reduce数一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b) 假设input目录下有3个文件a,b,c,大小 阅读全文
posted @ 2013-11-26 13:42 度娘818 阅读(164) 评论(0) 推荐(0) 编辑