打赏
摘要: (1) 【join爆内存】 在join之前,对这两部分数据,分别能先reduce的先reduce, 降低join时候分给每个reducer的条目数。 比如要拼接两份数据,每份数据A, B中相同key的条目最多有上百万条。 可以先分别对A, B先进行reduce操作,之后再join, 这样join时候 阅读全文
posted @ 2020-08-14 10:45 listenviolet 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 确定map任务数时依次优先参考如下几个原则: 1) 每个map任务使用的内存不超过800M,尽量在500M以下 比如处理256MB数据需要的时间为10分钟,内存为800MB,此时如果处理128MB时,内存可以减小为400MB,则选择每一个map的处理数据量为128MB 2) 每个map任务运行时间控 阅读全文
posted @ 2020-08-14 10:02 listenviolet 阅读(1223) 评论(0) 推荐(0) 编辑