当前问题:

input file 如何split?与inputformat有什么关系?
多个reduce输出多个文件,这多个文件如何在HDFS中存储,每个输出文件作为HDFS中的文件吗?会不会太小了?HIVE执行结果是返回一个文件,是HIVE自己把文件合并的吗?
map-reduce如何确定map和reduce任务的个数的?根据输入文件的大小?
map执行完之后的临时文件是写在本地还是写到特定的服务器上?

今天在看inputformat这块,目前对于输入文件的split部分还没有理清楚,很多代码不知道具体作用,看来需要架起环境来单步调试一下。

posted on 2012-11-16 17:53  风生水起  阅读(336)  评论(0编辑  收藏  举报