摘要:
摘要:Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。在本文中,详细介绍了如何针对一个具体的并行计算任务,基于 Hadoop 编写程序,如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译并运行 Hadoop 程序。分析 WordCount 程序我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 阅读全文
2013年5月12日 #
摘要:
摘要:Hadoop 是一个实现了 MapReduce 计算模型的开源分布式并行编程框架,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。本文将介绍 MapReduce 计算模型,分布式并行计算等基本概念,以及 Hadoop 的安装部署和基本运行方法。Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广. 阅读全文
摘要:
文/张巡 在说Hadoop之前,作为一个铁杆粉丝先粉一下Google。Google的伟大之处不仅在于它建立了一个强悍的搜索引擎,它还创造了几项革命性的技术:GFS,MapReduce,BigTable,即所谓的Google三驾马车。Google虽然没有公布这几项技术的实现代码,但它发表了详细的设计论文,这给业界带来了新鲜气息,很快就出现了类似于Google三驾马车的开源实现,Hadoop就是其中的一个。 关于MapReduce Hadoop说起来很简单,一个存储系统(HDFS),一个计算系统(MapReduce)。仅此而已。模型虽然简单,但我觉得它的精妙之处也就在这里。目前,通过提高CP... 阅读全文
摘要:
近日,Yahoo! Hadoop Map-Reduce开发团队领导Arun Murthy展示了针对Hadoop的重新设计过的核心Map-Reduce架构,旨在简化升级、支持更大的集群、更快的恢复,还要支持除了Map-Reduce以外的其他编程范式。重新设计的Hadoop核心将引擎分割为一个资源管理器,用以支持各种集群计算范式,同时将map-reduce作为一个用户库,组织可以在同一个集群中运行多个版本的map-reduce代码。新的设计非常类似于开源的Mesos集群管理项目——Yahoo!和Mesos对其中的差异进行了评述。新方案的主要优势在于:可伸缩性:支持6000台机器所构成的集群,每台机 阅读全文
摘要:
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。这个项目的地址是http://hadoop.apa. 阅读全文
摘要:
如果说Heritrix3.1.0系统主要涉及的是客户端的SOCKET编程,那么本系列的How Tomcat Works主要涉及的是服务器端的SOCKET编程目前关于解析Tomcat源码的文章比较多,本人在时间足够的情况下,会陆续写完自己的版本,一来是为增强编程能力,同时也为读者借鉴为了更方便的查看并... 阅读全文
摘要:
http://blog.csdn.net/wangchengsi/article/category/457978 阅读全文
摘要:
接下来本文还要继续分析Heritrix3.1.0系统中的CrawlController类及BdbFrontier类,因为本人觉得前面部分对相关逻辑还没用理清头绪,更重要的原因是由于每篇文章的关注点不同,本人不能在同一篇文章将相关类的所有关注点一一道来本文要分析的是,Heritrix3.1.0系统是怎... 阅读全文