Jason技术交流

     认真的做好每一件事情,享受成功的乐趣!

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2008年12月17日

摘要: 用Hadoop搭建分布式存储和分布式运算集群Filed under: 搜索, 配置, 开发 — 钟 子昌 @ 7:59 pm 1. 列出使用的机器普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。机器名:finewine01finewine02finewine03将finewine01设为主节点,其它的机器为从节点。2. 下载和生成从这里ch... 阅读全文
posted @ 2008-12-17 09:18 cyhjason 阅读(393) 评论(0) 推荐(0) 编辑

摘要: 一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在千兆至... 阅读全文
posted @ 2008-12-17 09:17 cyhjason 阅读(241) 评论(0) 推荐(0) 编辑

摘要: 五、文件系统元数据的持久化 Namenode存储HDFS的元数据。对于任何对文件元数据产生修改的操作,Namenode都使用一个称为Editlog的事务日志记录下来。例如,在HDFS中创建一个文件,Namenode就会在Editlog中插入一条记录来表示;同样,修改文件的replication因子也将往 Editlog插入一条记录。Namenode在本地OS的文件系统中存储这个Editlog... 阅读全文
posted @ 2008-12-17 09:17 cyhjason 阅读(218) 评论(0) 推荐(0) 编辑

摘要: 分析 WordCount 程序 我们先来看看 Hadoop 自带的示例程序 WordCount,这个程序用于统计一批文本文件中单词出现的频率,完整的代码可在下载的 Hadoop 安装包中得到(在 src/examples 目录中)。 1.实现Map类 见代码清单1。这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用 StringTokeniz... 阅读全文
posted @ 2008-12-17 09:16 cyhjason 阅读(313) 评论(0) 推荐(0) 编辑

摘要: Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行调度,处理机器的失效,并且管理机器之间的通讯请求。这样的模式允许程序员可以不需要有什么并发处理... 阅读全文
posted @ 2008-12-17 09:15 cyhjason 阅读(227) 评论(0) 推荐(0) 编辑

摘要: 本文主要是以安装和使用hadoop-0.12.0为例,指出在部署Hadoop的时候容易遇到的问题以及如何解决。 硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74 这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确... 阅读全文
posted @ 2008-12-17 09:14 cyhjason 阅读(186) 评论(0) 推荐(0) 编辑

摘要: IPC 实现RPC的一种方法,具有快速、简单的特点。 它不像Sun公司提供的标准RPC包,基于Java序列化。 IPC无需创建网络stubs和skeletons。 IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。 使用模型 采用客户/服务器... 阅读全文
posted @ 2008-12-17 09:14 cyhjason 阅读(395) 评论(0) 推荐(0) 编辑

摘要: Hadoop 的文件系统,最重要是 FileSystem 类,以及它的两个子类 LocalFileSystem 和 DistributedFileSystem。 这里先分析 FileSystem。抽象类 FileSystem,提高了一系列对文件/目录操作的接口,还有一些辅助方法。分别说明一下:1. open,create,delete,rename等,非abstract,部分返回 FSData... 阅读全文
posted @ 2008-12-17 09:13 cyhjason 阅读(432) 评论(1) 推荐(0) 编辑

摘要: Google是与众不同的。它的独特不仅仅表现于革新的思维和充满创意的应用 (比如那个大堂里的地球模型),更在于其有别常规的IT策略…… 加利福尼亚州山景城(Mountain View)Google公司(Google,下称Google)总部有一个43号大楼,该建筑的中央大屏幕上显示着一个与Google地球(Google Earth)相仿的世界地图,一个转动的地球上不停地闪动着五颜六色的光点,... 阅读全文
posted @ 2008-12-17 09:12 cyhjason 阅读(238) 评论(0) 推荐(0) 编辑

摘要: Lucene是个高度优化的倒转索引搜索引擎。它将倒转的索引存储在定制的文件格式中,文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。Lucene产生这些结构以致索引几乎完全的被预先计算好 Lucene 通过使用Directory接口的实现来存储索引,注意不要将Directory与java.io混淆了.FSDirectory 是Directory接口的一个标准的实现,它将索引保存在文件系... 阅读全文
posted @ 2008-12-17 09:11 cyhjason 阅读(622) 评论(0) 推荐(0) 编辑

摘要: 2008-06-06 14:42 Hadoop 简介 Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似... 阅读全文
posted @ 2008-12-17 09:00 cyhjason 阅读(299) 评论(0) 推荐(0) 编辑