02 2015 档案
摘要:HBase的安装是是建立在hadoop和zookeeper集群之上的安装的步骤跟伪分布式差不多,只是修改了一些配置文件解压缩、重命名、设置环境变量把hbase-0.94.2-security.tar.gz复制到/home/hadoop解压hbase-0.94.2-security.tar.gz与重命...
阅读全文
摘要:一、HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键,行键是HBase表天然自带的,创建表时不需要指定1.3 列族(column family),列的集合。一张表中有多个行健,一个行健读取出来的是一条记录,列族和M...
阅读全文
摘要:zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。在master节点的/home/hadoop目录下,解压缩zk....tar.gz,具体安装的路径自选解压后重命名该文件夹为zk设置环境变量vi /etc/profile新增export ZOOKEEPER_HOME=/home/...
阅读全文
摘要:在master节点上的hadoop安装目录下进入conf目录配置hdfs-site.xml文件添加节点如下:dfs.hosts.excludehome/hadoop/hadoop-0.20.2/conf/excludes节点的值为excludes文件的路径该文件的内容为要下架的节点的ip地址或者主机...
阅读全文
摘要:现有数据如下:3 33 23 12 22 11 1要求为:先按第一列从小到大排序,如果第一列相同,按第二列从小到大排序如果是hadoop默认的排序方式,只能比较key,也就是第一列,而value是无法参与排序的这时候就需要用到自定义的排序规则解决思路:自定义数据类型,将原本的key和value都包装...
阅读全文
摘要:当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理那么我们可以通过自定义的分区类来实现还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设置默认分区的代码,见代码: //1.3分区 //设置自定义分区类 job.setPartition...
阅读全文
摘要:还是使用之前的单词计数的例子自定义Mapper类import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop....
阅读全文
摘要:通过API操作之前要先了解几个基本知识一、hadoop的基本数据类型和java的基本数据类型是不一样的,但是都存在对应的关系如下图如果需要定义自己的数据类型,则必须实现Writablehadoop的数据类型可以通过get方法获得对应的java数据类型而java的数据类型可以通过hadoop数据类名的...
阅读全文
摘要:1.hadoop3: mkdir: cannot create directory `/usr/local/hadoop/bin/../logs': Permission denied把所有Datanode节点执行下面命令[hadoop@hadoop3 local]$ chown -R hadoop...
阅读全文
摘要:安装eclipse:(1)把eclipse-java-helios-SR2-linux-gtk.tar.gz解压到某个目录中,我解压到的是/usr/eclipse,得到eclipse目录(2)在/usr/bin目录下创建一个启动脚本eclipse,执行下面的命令来创建:vi /usr/bin/ecl...
阅读全文
摘要:以三个节点为例的服务器集群来安装和配置hadoop以下是各服务器ip地址和对应所做的节点192.168.61.128 master192.168.61.129 slave1192.168.61.133 slave2首先修改每个服务器上的hosts文件使用命令vi /etc/hosts编辑在最后追加1...
阅读全文
摘要:首先需要有一台linux的虚拟机,什么版本的都差不多这里以redhat为例下载hadoop(只是为了学习使用的是老版本的0.20.2)网上有很多下载的地方为服务器安装jdkjdk文件版本为jdk-7u45-linux-i586.rpm可以在官网上下载各个版本的linux jdk文件使用命令rpm -...
阅读全文