hanyuanbo

2012年7月29日

摘要：安装好HBase和ZooKeeper，当然要验证下是否可以正常工作了。在HBase Shell中测试是可以的，随着进行Java代码的验证。环境：OS： Windows7IDE： EclipseJars：将ZooKeeper的一个jar包、HBase的两个jar包、Hadoop的jar包和在lib目录下的jar包包含在工程的环境变量中xml：将hbase-site.xml放到工程的环境变量中hosts: 将C:\Windows\System32\drivers\etc\hosts的内容修改为：192.168.0.2 localhost192.168.0.2 master192.1... 阅读全文

posted @ 2012-07-29 04:01 hanyuanbo 阅读(1436) 评论(0) 推荐(0) 编辑

HBase ZooKeeper Distributed 完全分布式安装

摘要：昨天写了HBase 完全分布式安装配置，其中用到了HBase自带的ZK管理。不过看到帖子上很多说要单独安装zookeeper，于是尝试着安装zookeeper。其实安装zookeeper很简单，关键在zookeeper正常启动并和HBase协同工作，在尝试之前是不知道是否可以行得通，不过再尝试了几个小时之后，终于正常启动了。需要环境： OS: CentOS 5.5 （可以根据自己的需要来使用Linux环境） JDK: 1.6.0_32 （JDK 1.6版本的最新版本） hadoop: Hadoop 1.0.3（目前Hadoop稳定的最新版本） hbase：... 阅读全文

posted @ 2012-07-29 01:44 hanyuanbo 阅读(1526) 评论(0) 推荐(0) 编辑

2012年7月28日

Hadoop 1.0.3 完全分布式安装配置部署

摘要：参考两篇文章，即是我的配置环境。（CentOS 5.5上 1个Namenode、1个Secondary Namenode，3个Datanode）Ubuntu 上 Hadoop 1.0.3 单节点配置-运行成功HDFS集群部署流程阅读全文

posted @ 2012-07-28 10:50 hanyuanbo 阅读(350) 评论(0) 推荐(0) 编辑

HBase 完全分布式安装配置

摘要：需要环境： OS: CentOS 5.5 （可以根据自己的需要来使用Linux环境） JDK: 1.6.0_32 （JDK 1.6版本的最新版本） hadoop: Hadoop 1.0.3（目前Hadoop稳定的最新版本） hbase： HBase 0.92.1（目前HBase稳定的最新版本，至少跟Hadoop1.0.3是兼容的）（本文讲述的是使用hbase自带的zookeeper，所以没有下载安装zookeeper）HBase作为架构在Hadoop上的一个BigTable，不得不说它有很大的应用空间，如下是安装配置过程。（前提是已经在集群上正常部署Had... 阅读全文

posted @ 2012-07-28 10:41 hanyuanbo 阅读(3728) 评论(0) 推荐(0) 编辑

2012年7月27日

HBase 技术介绍

摘要：在接触了HDFS和MapReduce之后，慢慢接触了HBase，觉得这个Big Table确实好用。HBase作为Hadoop的Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现，它利用Hadoop HDFS作为其文件存储系统，利用Hadoop MapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。利用HBase技术可在廉价PC Server上搭建起大规模结构化.. 阅读全文

posted @ 2012-07-27 20:39 hanyuanbo 阅读(331) 评论(0) 推荐(0) 编辑

2012年7月26日

无密码SSH配置

摘要：由于Hadoop和以后用到的Git分布式版本控制都用到了SSH，故这里把无密码登录的SSH的配置过程记录下：1. 首先切换到想要使用ssh的用户下，不一定是root用户2.ssh-keygen –t rsa –P ‘’ （这个用来产生id_rsa.pub和id_rsa，还有authorized_keys）3. 将自己的id_rsa.pub文件拷贝到想无密码登录自己这台机器的机器上（把自己的pubkey给别人，别人就可以登录自己了）。如果那个机器跟自己可以连同，则可以使用scp进行拷贝。 scp id_rsa.pub user@X.X.X.X:~/(将id_rsa.pub拷贝到指定ip地址的us 阅读全文

posted @ 2012-07-26 17:11 hanyuanbo 阅读(188) 评论(0) 推荐(0) 编辑

MapReduce 实例简单的倒排索引建立

摘要：倒排索引被广泛应用于全文搜索殷勤，像Google 百度雅虎这样的搜索殷勤都在使用倒排索引。具体倒排索引的介绍，参照维基百科。这个实例要做的是将几个文件中的内容进行倒排索引，文件的内容如下：我们要实现的结果是：这样就简单做了一个倒排索引操作，通过单词可以查询到该单词出现在了哪个文件中，出现了几次。分三个步骤：1. 将file1、file2和file3文件内容按照 <word:filename,1> (即<单词:文件名,1>，这是为了将文件名信息添加到map中以便后面的reduce使用)2. 将<word:filename,1>转化为<word,fil 阅读全文

posted @ 2012-07-26 12:56 hanyuanbo 阅读(1754) 评论(0) 推荐(1) 编辑

MapReduce WordCount处理过程

摘要： Hadoop-1.0.3版本的WordCount Example代码中用到了新版本的Map Reduce抽象类，而不是去实现接口。它的源代码如下：package org.apache.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apac 阅读全文

posted @ 2012-07-26 00:31 hanyuanbo 阅读(1241) 评论(0) 推荐(0) 编辑

2012年7月25日

《Hadoop管理五》MapReduce类型常用的InputFormat

摘要： MapReduce过程Mapper的输出参数和Reducer的输入参数是一样的，都是中间需要处理的结果，而Reducer的输出结果便是我们想要的输出结果。所以根据需要对InputFormat进行较合理的设置，Job才能正常运行。Job过程中间的Key和Value的对应关系可以简单阐述如下：map: <k1,v1> -> list(k2,v2)combile: <k2,list(v2)> -> list(k2,v2)reduce: <k2,list(v2)> -> list(k3,v3)至于为什么需要显示指定中间、最终的数据... 阅读全文

posted @ 2012-07-25 20:15 hanyuanbo 阅读(802) 评论(0) 推荐(0) 编辑

《Hadoop管理四》从Secondary Namenode恢复Namenode

摘要：介绍如何从Secondary Namenode的checkpoint点恢复Namenode，对于以后理解从Checkpoint Node 和Backup Node恢复很有帮助。在core-site.xml的配置文件中，设置了checkpoint的时间间隔、大小限制和存储位置。<property> <name>fs.checkpoint.dir</name> <value>${hadoop.tmp.dir}/dfs/namesecondary</value> <description>Determines where on 阅读全文

posted @ 2012-07-25 20:12 hanyuanbo 阅读(341) 评论(0) 推荐(0) 编辑

公告