MapReduce Job调试教训

[2014.12.08]
一个Job, Map跑了40分钟,Reduce挂了;fix bug, 重跑,Reduce又挂了,......,三个小时过去了,又再重跑,时间啊。。。。
以后,调试MR Job, 老老实实按以下方法:
(1)先本地单测通过,
(2)mapper 为自己的逻辑,然后 -reduce='cat';
(3)从hdfs上取一个reduce产出的part, 在本地 cat part|python reduce.py 测试通过
(4)上集群跑MR Job

posted @ 2014-12-08 17:39  apricot  阅读(146)  评论(0编辑  收藏  举报