2013年11月28日

Manning Hadoop in Practice 翻译【6.2.2】

摘要: 不是从第一章开始。6.2.2 Map的困境技巧 29 鉴别map阶段的数据差异问题数据差异是非常常见的。在map阶段,数据差异主要以少量不可以分割的大文件或者大量小文件为代表。问题你想要确认一个job是否因为存在数据差异而导致其运行缓慢。解决方案使用JobTracker的UI来比较同一个job的map阶段的不同task的输入文件的大小。讨论数据差异表现为少数的task执行时花费的时间比其他的task多很多。如果你将延迟完成的task的输入文件大小和整个map的所有task的输入文件大小做一下比较的话,你就可以得到一个鉴别数据差异的万全之策了。图6.6展示了使用JobTracker的UI来鉴别数 阅读全文

posted @ 2013-11-28 17:39 sixiiweb 阅读(377) 评论(0) 推荐(0) 编辑

导航