Manning Hadoop in Practice 翻译【6.2.2】

不是从第一章开始。

6.2.2 Map的困境

技巧 29 鉴别map阶段的数据差异问题

数据差异是非常常见的。在map阶段,数据差异主要以少量不可以分割的大文件或者大量小文件为代表。

问题

你想要确认一个job是否因为存在数据差异而导致其运行缓慢。

解决方案

使用JobTracker的UI来比较同一个job的map阶段的不同task的输入文件的大小。

讨论

数据差异表现为少数的task执行时花费的时间比其他的task多很多。如果你将延迟完成的task的输入文件大小和整个map的所有task的输入文件大小做一下比较的话,你就可以得到一个鉴别数据差异的万全之策了。
图6.6展示了使用JobTracker的UI来鉴别数据差异的步骤。

 图6.6 使用JobTracker的UI来鉴别数据差异

 

 

posted on 2013-11-28 17:39  sixiiweb  阅读(377)  评论(0编辑  收藏  举报

导航