摘要:
(1) 【join爆内存】 在join之前,对这两部分数据,分别能先reduce的先reduce, 降低join时候分给每个reducer的条目数。 比如要拼接两份数据,每份数据A, B中相同key的条目最多有上百万条。 可以先分别对A, B先进行reduce操作,之后再join, 这样join时候 阅读全文
摘要:
确定map任务数时依次优先参考如下几个原则: 1) 每个map任务使用的内存不超过800M,尽量在500M以下 比如处理256MB数据需要的时间为10分钟,内存为800MB,此时如果处理128MB时,内存可以减小为400MB,则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控 阅读全文