06 2016 档案

摘要:1、下载Zookeeper http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/ 2、创建/usr/app/zookeeper目录,并切换到该目录,如下所示 3、使用rz命令上传zookeeper-3.4.6.tar.gz 4、解压(ta 阅读全文
posted @ 2016-06-24 17:15 刘超★ljc 阅读(1541) 评论(0) 推荐(2) 编辑
摘要:1、HBase概述 HBase是hadoop生态系统中的重要组成部分,是一个开源的、面向列、适合存储海量非结构化数据或半结构化数据,具备高可靠性、高性能、可灵活扩展伸缩、支持实时数据读写的分布式存储系统 存储在Hbase中的表的特征 1、大:一个表可以有上亿行,上百万列 2、任意模式:每行都有一个可 阅读全文
posted @ 2016-06-21 11:10 刘超★ljc 阅读(992) 评论(0) 推荐(3) 编辑
摘要:在hadoop2.6.0分布式集群上搭建hbase ha分布式集群。搭建hadoop2.6.0分布式集群,请参考“基于hadoop2.6.0搭建5个节点的分布式集群”。下面我们开始啦 1、规划 1、主机规划 Node Name Master Zookeeper RegionServer hadoop 阅读全文
posted @ 2016-06-19 23:03 刘超★ljc 阅读(1091) 评论(0) 推荐(4) 编辑
摘要:一、获取当前目录下的文件个数 1、命令 ls -l | grep "^-" | wc -l 2、说明 ls -l 长列表输出该目录下文件信息(注意这里的文件,不同于一般的文件,可能是目录、链接、设备文件等);grep “^-“ 这里将长列表输出信息过滤一部分,只保留一般文件,如果只保留目录就是^d; 阅读全文
posted @ 2016-06-16 22:18 刘超★ljc 阅读(685) 评论(0) 推荐(1) 编辑
摘要:对于简单的分析程序,我们只需一个MapReduce就能搞定,然而对于比较复杂的分析程序,我们可能需要多个Job或者多个Map或者Reduce进行计算。下面我们来说说多个Job或者多个MapReduce的编程形式 MapReduce的主要有以下几种编程形式 1、迭代式MapReduce MapRedu 阅读全文
posted @ 2016-06-11 12:09 刘超★ljc 阅读(1185) 评论(2) 推荐(2) 编辑
摘要:默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序 1、二次排序原理 我们把二次排序分为以下几个阶段 Map起始阶段 在Map阶段,使用job.setInputFormatClass()定 阅读全文
posted @ 2016-06-08 00:56 刘超★ljc 阅读(11657) 评论(3) 推荐(10) 编辑
摘要:前面我们介绍了MapReduce中的Join算法,我们提到了可以通过map端连接或reduce端连接实现join算法,在文章中,我们只给出了reduce端连接的例子,下面我们说说使用map端连接结合分布式缓存机制实现Join算法 1、介绍 我们使用频道类型数据集和机顶盒用户数据集,进行连接,统计出每 阅读全文
posted @ 2016-06-02 20:21 刘超★ljc 阅读(1285) 评论(0) 推荐(2) 编辑