随笔档案「2016年6月」 - 刘超★ljc

Zookeeper3.4.6部署伪分布集群（Apache）

摘要：1、下载Zookeeper http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.6/ 2、创建/usr/app/zookeeper目录，并切换到该目录，如下所示 3、使用rz命令上传zookeeper-3.4.6.tar.gz 4、解压（ta 阅读全文

posted @ 2016-06-24 17:15 刘超★ljc 阅读(1585) 评论(0) 推荐(2)

初步掌握HBase

摘要：1、HBase概述 HBase是hadoop生态系统中的重要组成部分，是一个开源的、面向列、适合存储海量非结构化数据或半结构化数据，具备高可靠性、高性能、可灵活扩展伸缩、支持实时数据读写的分布式存储系统存储在Hbase中的表的特征 1、大：一个表可以有上亿行，上百万列 2、任意模式：每行都有一个可阅读全文

posted @ 2016-06-21 11:10 刘超★ljc 阅读(1017) 评论(0) 推荐(3)

基于HBase0.98.13搭建HBase HA分布式集群

摘要：在hadoop2.6.0分布式集群上搭建hbase ha分布式集群。搭建hadoop2.6.0分布式集群，请参考“基于hadoop2.6.0搭建5个节点的分布式集群”。下面我们开始啦 1、规划 1、主机规划 Node Name Master Zookeeper RegionServer hadoop 阅读全文

posted @ 2016-06-19 23:03 刘超★ljc 阅读(1115) 评论(0) 推荐(4)

获取当前目录中的文件个数

摘要：一、获取当前目录下的文件个数 1、命令 ls -l | grep "^-" | wc -l 2、说明 ls -l 长列表输出该目录下文件信息(注意这里的文件，不同于一般的文件，可能是目录、链接、设备文件等)；grep “^-“ 这里将长列表输出信息过滤一部分，只保留一般文件，如果只保留目录就是^d；阅读全文

posted @ 2016-06-16 22:18 刘超★ljc 阅读(726) 评论(0) 推荐(1)

MapReduce链接作业

摘要：对于简单的分析程序，我们只需一个MapReduce就能搞定，然而对于比较复杂的分析程序，我们可能需要多个Job或者多个Map或者Reduce进行计算。下面我们来说说多个Job或者多个MapReduce的编程形式 MapReduce的主要有以下几种编程形式 1、迭代式MapReduce MapRedu 阅读全文

posted @ 2016-06-11 12:09 刘超★ljc 阅读(1226) 评论(2) 推荐(2)

MapReduce二次排序

摘要：默认情况下，Map输出的结果会对Key进行默认的排序，但是有时候需要对Key排序的同时还需要对Value进行排序，这时候就要用到二次排序了。下面我们来说说二次排序 1、二次排序原理我们把二次排序分为以下几个阶段 Map起始阶段在Map阶段，使用job.setInputFormatClass()定阅读全文

posted @ 2016-06-08 00:56 刘超★ljc 阅读(11723) 评论(3) 推荐(10)

使用map端连接结合分布式缓存机制实现Join算法

摘要：前面我们介绍了MapReduce中的Join算法，我们提到了可以通过map端连接或reduce端连接实现join算法，在文章中，我们只给出了reduce端连接的例子，下面我们说说使用map端连接结合分布式缓存机制实现Join算法 1、介绍我们使用频道类型数据集和机顶盒用户数据集，进行连接，统计出每阅读全文

posted @ 2016-06-02 20:21 刘超★ljc 阅读(1316) 评论(0) 推荐(2)

刘超

06 2016 档案

公告