我的视频blog地址 http://www.lofter.com/blog/cloudrivers
摘要: 1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。 2、算法 阅读全文
posted @ 2020-06-11 11:45 Michael云擎 阅读(1212) 评论(0) 推荐(0) 编辑
摘要: 这两个类所在目录: hadoop-examples-0.20.2-cdh3u6.jar 中: 代码: TeraGen.java: /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributo 阅读全文
posted @ 2020-06-11 11:41 Michael云擎 阅读(387) 评论(0) 推荐(0) 编辑
我的视频blog地址 http://www.lofter.com/blog/cloudrivers