摘要: 安装好HBase和ZooKeeper,当然要验证下是否可以正常工作了。在HBase Shell中测试是可以的,随着进行Java代码的验证。环境:OS: Windows7IDE: EclipseJars: 将ZooKeeper的一个jar包、HBase的两个jar包、Hadoop的jar包和在lib目录下的jar包包含在工程的环境变量中xml: 将hbase-site.xml放到工程的环境变量中hosts: 将C:\Windows\System32\drivers\etc\hosts的内容修改为:192.168.0.2 localhost192.168.0.2 master192.1... 阅读全文
posted @ 2012-07-29 04:01 hanyuanbo 阅读(1436) 评论(0) 推荐(0) 编辑
摘要: 昨天写了HBase 完全分布式 安装配置,其中用到了HBase自带的ZK管理。不过看到帖子上很多说要单独安装zookeeper,于是尝试着安装zookeeper。其实安装zookeeper很简单,关键在zookeeper正常启动并和HBase协同工作,在尝试之前是不知道是否可以行得通,不过再尝试了几个小时之后,终于正常启动了。需要环境: OS: CentOS 5.5 (可以根据自己的需要来使用Linux环境) JDK: 1.6.0_32 (JDK 1.6版本的最新版本) hadoop: Hadoop 1.0.3(目前Hadoop稳定的最新版本) hbase:... 阅读全文
posted @ 2012-07-29 01:44 hanyuanbo 阅读(1526) 评论(0) 推荐(0) 编辑
摘要: 参考两篇文章,即是我的配置环境。(CentOS 5.5上 1个Namenode、1个Secondary Namenode,3个Datanode)Ubuntu 上 Hadoop 1.0.3 单节点 配置-运行 成功HDFS集群部署流程 阅读全文
posted @ 2012-07-28 10:50 hanyuanbo 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 需要环境: OS: CentOS 5.5 (可以根据自己的需要来使用Linux环境) JDK: 1.6.0_32 (JDK 1.6版本的最新版本) hadoop: Hadoop 1.0.3(目前Hadoop稳定的最新版本) hbase: HBase 0.92.1(目前HBase稳定的最新版本,至少跟Hadoop1.0.3是兼容的)(本文讲述的是使用hbase自带的zookeeper,所以没有下载安装zookeeper)HBase作为架构在Hadoop上的一个BigTable,不得不说它有很大的应用空间,如下是安装配置过程。(前提是已经在集群上正常部署Had... 阅读全文
posted @ 2012-07-28 10:41 hanyuanbo 阅读(3728) 评论(0) 推荐(0) 编辑
摘要: 在接触了HDFS和MapReduce之后,慢慢接触了HBase,觉得这个Big Table确实好用。HBase作为Hadoop的Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。利用HBase技术可在廉价PC Server上搭建起大规模结构化.. 阅读全文
posted @ 2012-07-27 20:39 hanyuanbo 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 由于Hadoop和以后用到的Git分布式版本控制都用到了SSH,故这里把无密码登录的SSH的配置过程记录下:1. 首先切换到想要使用ssh的用户下,不一定是root用户2.ssh-keygen –t rsa –P ‘’ (这个用来产生id_rsa.pub和id_rsa,还有authorized_keys)3. 将自己的id_rsa.pub文件拷贝到想无密码登录自己这台机器的机器上(把自己的pubkey给别人,别人就可以登录自己了)。如果那个机器跟自己可以连同,则可以使用scp进行拷贝。 scp id_rsa.pub user@X.X.X.X:~/(将id_rsa.pub拷贝到指定ip地址的us 阅读全文
posted @ 2012-07-26 17:11 hanyuanbo 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 倒排索引被广泛应用于全文搜索殷勤,像Google 百度 雅虎这样的搜索殷勤都在使用倒排索引。具体倒排索引的介绍,参照 维基百科。这个实例要做的是将几个文件中的内容进行倒排索引,文件的内容如下:我们要实现的结果是:这样就简单做了一个倒排索引操作,通过单词可以查询到该单词出现在了哪个文件中,出现了几次。分三个步骤:1. 将file1、file2和file3文件内容按照 <word:filename,1> (即<单词:文件名,1>,这是为了将文件名信息添加到map中以便后面的reduce使用)2. 将<word:filename,1>转化为<word,fil 阅读全文
posted @ 2012-07-26 12:56 hanyuanbo 阅读(1754) 评论(0) 推荐(1) 编辑
摘要: Hadoop-1.0.3版本的WordCount Example代码中用到了新版本的Map Reduce抽象类,而不是去实现接口。它的源代码如下:package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apac 阅读全文
posted @ 2012-07-26 00:31 hanyuanbo 阅读(1241) 评论(0) 推荐(0) 编辑
摘要: MapReduce过程Mapper的输出参数和Reducer的输入参数是一样的,都是中间需要处理的结果,而Reducer的输出结果便是我们想要的输出结果。所以根据需要对InputFormat进行较合理的设置,Job才能正常运行。Job过程中间的Key和Value的对应关系可以简单阐述如下:map: <k1,v1> -> list(k2,v2)combile: <k2,list(v2)> -> list(k2,v2)reduce: <k2,list(v2)> -> list(k3,v3)至于为什么需要显示指定中间、最终的数据... 阅读全文
posted @ 2012-07-25 20:15 hanyuanbo 阅读(802) 评论(0) 推荐(0) 编辑
摘要: 介绍如何从Secondary Namenode的checkpoint点恢复Namenode,对于以后理解从Checkpoint Node 和Backup Node恢复很有帮助。在core-site.xml的配置文件中,设置了checkpoint的时间间隔、大小限制和存储位置。<property> <name>fs.checkpoint.dir</name> <value>${hadoop.tmp.dir}/dfs/namesecondary</value> <description>Determines where on 阅读全文
posted @ 2012-07-25 20:12 hanyuanbo 阅读(341) 评论(0) 推荐(0) 编辑