[hadoop转载]tearsort


1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。

posted @ 2014-08-05 21:40  hansongjiang8  阅读(336)  评论(0编辑  收藏  举报