摘要:简单的建立索引和查询索引并不难,关键在于他的二次开发,让他适合你自己的需求既然要二次开发就必须查看源码首先看看索引过程中的核心类吧:IndexWriter 这个是核心组件, 建立和打开索引,以及向文档中添加、删除或更新被索引文档的信息。Directory 描述了Lucene索引的存放位置,他是一个...
阅读全文
摘要:本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客。下面是本文总结的第一部分内容:表的设计相关的优化方法。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会...
阅读全文
摘要:org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac代码://1.create HTablePoolHTablePool hp=new HTablePool(con, 1000);//2....
阅读全文
摘要:阅读目录 创建索引 增量添加索引 删除索引 更新索引 通过索引查询关键字 全部代码 参考资料前言 搞检索的,应该多少都会了解Lucene一些,它开源而且简单上手,官方API足够编写些小DEMO。并且根据倒排索引,实现快速检索。本文就简单的实现增量添加索引,删除索引,通过关键字查询,以...
阅读全文
摘要:转载自 http://blog.csdn.net/yja886/article/details/6612069lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));F...
阅读全文
摘要:HBase Coprocessor 剖析与编程实践1.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的 ( protocol, byte[] row) 。rigons区域:H...
阅读全文
摘要:转载自http://blog.csdn.net/ryantotti/article/details/13295325在二级索引的实现技术上一般有几个方案:1. 表索引使用单独的hbase表存储索引数据,业务表的索引列值做为索引表的rowkey,业务表的rowkey做为索引表的qualifier或va...
阅读全文
摘要:import org.apache.hadoop.hbase.filter.CompareFilterimport org.apache.hadoop.hbase.filter.SingleColumnValueFilterimport org.apache.hadoop.hbase.filter....
阅读全文
摘要:你的快速是指什么?是根据亿级的记录中快速查询,还是说以实时的方式查询数据。A:如果快速查询(从磁盘读数据),hbase是根据rowkey查询的,只要能快速的定位rowkey,就能实现快速的查询,主要是以下因素:1、hbase是可划分成多个region,你可以简单的理解为关系型数据库的多个分区。2、键...
阅读全文
摘要:Hadoop学习笔记—21.Hadoop2的改进内容简介Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:(1)HDFS的NameNode可以以集群的方式布署,增强了NameNode...
阅读全文
摘要:Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p...
阅读全文
摘要:Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cn...
阅读全文
摘要:Hadoop学习笔记—19.Flume框架学习START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统 ...
阅读全文
摘要:Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cn...
阅读全文
摘要:Hadoop学习笔记系列文章导航一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废 为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据...
阅读全文
摘要:Hadoop学习笔记—17.Hive框架学习一、Hive:一个牛逼的数据仓库1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。H...
阅读全文
摘要:Hadoop学习笔记—18.Sqoop框架学习一、Sqoop基础:连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着...
阅读全文
摘要:Hadoop学习笔记—16.Pig框架学习一、关于Pig:别以为猪不能干活1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂...
阅读全文
摘要:Hadoop学习笔记—15.HBase框架学习(基础实践篇)一、HBase的安装配置1.1 伪分布模式安装 伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。 首先,准备好HBase的安装包,我这里使用...
阅读全文
摘要:Hadoop学习笔记—14.ZooKeeper环境搭建从字面上来看,ZooKeeper表示动物园管理员,这是一个十分奇妙的名字,我们又想起了Hadoop生态系统中,许多项目的Logo都采用了动物,比如Hadoop采用了大象的形象,所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一...
阅读全文
摘要:Hadoop学习笔记—15.HBase框架学习(基础知识篇)HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。一、HBase:BigTab...
阅读全文
摘要:Hadoop学习笔记—13.分布式集群中节点的动态添加与下架开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结...
阅读全文
摘要:Hadoop学习笔记—11.MapReduce中的排序和分组一、写在之前的1.1 回顾Map阶段四大步骤 首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排序和分组,默认情况下,是按照key进行...
阅读全文
摘要:Hadoop学习笔记—12.MapReduce中的常见算法一、MapReduce中有哪些常见算法 (1)经典之王:单词计数 这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数...
阅读全文
摘要:Hadoop学习笔记—9.Partitioner与自定义Partitioner一、初步探索Partitioner1.1 再次回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.3就...
阅读全文
摘要:Hadoop学习笔记—10.Shuffle过程那点事儿一、回顾Reduce阶段三大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就是一个Shuffle操作,它针对多个map任务的输出按...
阅读全文
摘要:Hadoop学习笔记—8.Combiner与自定义Combiner一、Combiner的出现背景1.1 回顾Map阶段五大步骤 在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步骤,如下图所示: 其中,step1.5是一个可选步骤,它就是...
阅读全文
摘要:Hadoop学习笔记—7.计数器与自定义计数器一、Hadoop中的计数器计数器:计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器,用来记录数据或者进度的变化情况,它比日志更便利进行分析。 例如,我们有一个文件,其中包含如下内容:hello y...
阅读全文
摘要:Hadoop学习笔记—6.Hadoop Eclipse插件的使用开篇:Hadoop 是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率。但是,它也有一些缺点,如编码、调试Hadoop程序的难度较 大,这样的缺点直接导致开发人员入门门槛高,开发难度大。因此,Hadop的...
阅读全文
摘要:Hadoop学习笔记—4.初识MapReduce一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大 数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而...
阅读全文
摘要:一、RPC基础概念1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用; (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网络通信细节,对我们来说是透明的。因此,它经常用于分布式网络通信中。RPC协议假定某些传输协议的存在...
阅读全文
摘要:转载自http://www.cnblogs.com/edisonchou/p/3538524.htmlHadoop学习笔记—2.不怕故障的海量存储:HDFS基础入门一.HDFS出现的背景 随着社会的进步,需要处理数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘...
阅读全文
摘要:转载自:http://www.cnblogs.com/edisonchou/p/3485135.htmlHadoop学习笔记—1.基本介绍与环境配置一、Hadoop的发展历史 说到 Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google(自称)为云计算概念...
阅读全文
摘要:转载自http://www.cnblogs.com/edisonchou/p/4288737.htmlHadoop学习笔记—5.自定义类型处理手机上网日志一、测试数据:手机上网日志1.1 关于这个日志 假设我们如下一个日志文件,这个文件的内容是来自某个电信运营商的手机上网日志,文件的内容已经经过了...
阅读全文