06 2016 档案
摘要:1、下载Zookeeper http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/ 2、创建/usr/app/zookeeper目录,并切换到该目录,如下所示 3、使用rz命令上传zookeeper-3.4.6.tar.gz 4、解压(ta
阅读全文
摘要:1、HBase概述 HBase是hadoop生态系统中的重要组成部分,是一个开源的、面向列、适合存储海量非结构化数据或半结构化数据,具备高可靠性、高性能、可灵活扩展伸缩、支持实时数据读写的分布式存储系统 存储在Hbase中的表的特征 1、大:一个表可以有上亿行,上百万列 2、任意模式:每行都有一个可
阅读全文
摘要:在hadoop2.6.0分布式集群上搭建hbase ha分布式集群。搭建hadoop2.6.0分布式集群,请参考“基于hadoop2.6.0搭建5个节点的分布式集群”。下面我们开始啦 1、规划 1、主机规划 Node Name Master Zookeeper RegionServer hadoop
阅读全文
摘要:一、获取当前目录下的文件个数 1、命令 ls -l | grep "^-" | wc -l 2、说明 ls -l 长列表输出该目录下文件信息(注意这里的文件,不同于一般的文件,可能是目录、链接、设备文件等);grep “^-“ 这里将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是^d;
阅读全文
摘要:对于简单的分析程序,我们只需一个MapReduce就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行计算。下面我们来说说多个Job或者多个MapReduce的编程形式 MapReduce的主要有以下几种编程形式 1、迭代式MapReduce MapRedu
阅读全文
摘要:默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序 1、二次排序原理 我们把二次排序分为以下几个阶段 Map起始阶段 在Map阶段,使用job.setInputFormatClass()定
阅读全文
摘要:前面我们介绍了MapReduce中的Join算法,我们提到了可以通过map端连接或reduce端连接实现join算法,在文章中,我们只给出了reduce端连接的例子,下面我们说说使用map端连接结合分布式缓存机制实现Join算法 1、介绍 我们使用频道类型数据集和机顶盒用户数据集,进行连接,统计出每
阅读全文