博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2012年5月22日

摘要: Written by Hao C., Hadoop Special Interest Group. 这段时间看了下Nutch1.4的源码,并尝试着结合solr和tomcat搭个搜索引擎,目前还没完成,但是也有些东西可以一记,希望对自己对别人都有所帮助。由于时间关系,而且很多细节问题还不是很理解,以下内容并没有经过精心组织,准备等搜索引擎搭好后再重构一下。 网上有一些文章是讲Nutch的每一步是做什么的,基本上还是很好理解的,所以在这里就先不赘述了。我这里主要写一下Nutch1.4中几个主要的类是做什么的,建议先了解一下Nutch的基本组成和MapReduce的原理。在本文的最下面还有一个FAQ 阅读全文

posted @ 2012-05-22 17:10 Hadoop-scutmstcSIG 阅读(421) 评论(1) 推荐(0) 编辑

2012年4月21日

摘要: Written by 坏人,Hadoop Special Interest Group.这学期加了hadoop源码的兴趣小组。和大家一起尝试着看hadoop中的源码。希望可以一起努力吧。好了,介绍一下本人的情况吧。没什么hadoop的基础,也发现自己看不下hadoop权威指南这本书。感觉这本书好像介绍怎么用hadoop的内容会比较多。而自己对这个没啥兴趣,自己主要想搞清楚这个可以处理海量数据的东西是怎么运作的,运作的原理,运作的实现方式等啥的,自己可以知道里面的一些东西,自己就满足了。实践啥的,现在没有啥硬件条件,所以就先弄懂他的原理呗。不过说起来hadoop中的很多东西其实都不是什么新东西. 阅读全文

posted @ 2012-04-21 00:00 Hadoop-scutmstcSIG 阅读(2165) 评论(0) 推荐(0) 编辑

2012年4月5日

摘要: Written by chenxiaochen32 ,Hadoop Special Interest Group.HDFS是一种文件系统,存储着Hadoop应用将要处理的数据,类似于普通的Unix和linux文件系统,不同的是他是实现了google的GFS文件系统的思想,是适用于大规模分布式数据处理相关应用的、可扩展的分布式文件系统。它有以下优点:1、在分布式存储中,经常会出现节点失效的情况,HDFS可以持续监视,错误检查,容错处理,自动恢复;2、分布式存储的文件都是非常巨大的,HDFS重新规定了每次I/O的块的大小;3、对于搜索引擎的业务,大部分都只会在文件尾添加新数据,很少修改已有数据。H 阅读全文

posted @ 2012-04-05 15:33 Hadoop-scutmstcSIG 阅读(1936) 评论(0) 推荐(2) 编辑

2012年3月20日

摘要: Written by chenxiaochen32 ,Hadoop Special Interest Group.一个hadoop集群拥有许多并行的计算机,用以存储和处理大规模数据集,分布式系统是向外扩展的,当客户端计算机发送作业到计算云时,计算云将会把任务划分到多个节点进行计算,然后节点将计算结果返回到主节点进行统计,再把结果输送给客户端。这也同时说明了,hadoop编程里面最核心的两个动作是:将任务分解,将结果统计,就是mapping和reducing。不过庆幸的是,hadoop已经帮我们实现了这两种方法,以至于我们可以不用了解数据分解和传输的细节,我们只需要实现mapper类和reduc 阅读全文

posted @ 2012-03-20 13:34 Hadoop-scutmstcSIG 阅读(500) 评论(0) 推荐(0) 编辑

2012年3月6日

摘要: Written by Hao C., Hadoop Special Interest Group.环境:Virtual Box 4.1.8 + Ubuntu 11.10 Server i386 + Hadoop 1.0.0虚拟机参数:内存:128M虚拟硬盘格式:vdi 网络:Bridged Adapter关于Ubuntu1、语言最好选择English,否则会出现乱码,到头来还是要把界面暂时改回英文。对于还是执意安装中文(简体)的童鞋们,可以在安装完Ubuntu后,用下面的方法解决乱码问题:hao@HadoopMaster:~$ sudo vim /etc/default/locale/**将* 阅读全文

posted @ 2012-03-06 03:05 Hadoop-scutmstcSIG 阅读(588) 评论(0) 推荐(0) 编辑