摘要:
http://blog.csdn.net/eryk86/article/details/14111811使用https://github.com/apache/nutch.git导入nutch项目到intellij配置ivy.xml和conf下的gora.properties、nutch-site.... 阅读全文
摘要:
一、查询参数说明在做solr查询的时候,solr提供了很多参数来扩展它自身的强大功能!以下是使用频率最高的一些参数!1、常用q-查询字符串,这个是必须的。如果查询所有*:*,根据指定字段查询(Name:张三 AND Address:北京)fq- (filter query)过虑查询,作用:在q查询符... 阅读全文
摘要:
进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> w... 阅读全文
摘要:
HBASE依托于Hadoop的HDFS作为存储基础,因此结构也很类似于Hadoop的Master-Slave模式,Hbase Master Server负责管理所有的HRegion Server,但Hbase Master Server本身并不存储HBASE中的任何数据。HBASE逻辑上的Tabl... 阅读全文
摘要:
在本文中的HBase术语:基于列:column-oriented行:row列组:column families列:column单元:cell理解HBase(一个开源的Google的BigTable实际应用)最大的困难是HBase的数据结构概念究竟是什么?首先HBase不同于一般的关系数据库,它是一个... 阅读全文
摘要:
http://blog.csdn.net/heyutao007/article/details/5766896BigTable是什么?Google的Paper对其作了充分的说明。字面上看就是一张大表,其实和我们想象的传统数据库的表还是有些差别的。松散数据可以说是介于Map Entry(key & v... 阅读全文
摘要:
转载:http://blog.csdn.net/microad_liy/article/details/7667670写这篇文章的原因:最近要给服务器Centos上的ruby版本升级,由于是第一次升级,不敢直接在服务器上操作。所以在我的winxp上装了Vmware ,又在Vmware中装了Cento... 阅读全文
摘要:
一)安装elasticsearch1)下载elasticsearch-0.90.10,解压,运行\bin\elasticsearch.bat (windwos)2)进入http://localhost:9200/如下图安装成功!二)插件——headelasticsearch-head是一个elast... 阅读全文
摘要:
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜 索引擎架构在ElasticSearch之上,... 阅读全文
摘要:
基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) ... 阅读全文
摘要:
一、背景最近由于项目和论文的需要,需要搭建一个垂直搜索的环境,查阅了很多资料,决定使用Apache的一套解决方案hadoop+hbase+nutch+es。这几样神器的作用就不多作介绍了,自行参考各类百科就行了。我选择这样的方案主要是基于以下考虑:1、可扩展,虽然只是实验环境,但是以后在项目中是要应... 阅读全文
摘要:
Elasticsearch是开源搜索平台的新成员,实时数据分析的神器,发展迅猛,基于 Lucene、RESTful、分布式、面向云计算设计、实时搜索、全文搜索、稳定、高可靠、可扩展、安装+使用方便,介绍都说的很好听,好不好用拿出来遛一遛。做了个简单测试,在两台完全一样的虚拟机上,2000万条左右数据... 阅读全文
摘要:
这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。1、下载nutch2.1 nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar... 阅读全文
摘要:
http://www.tuicool.com/articles/VfEFjmNutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1.... 阅读全文
摘要:
用VMwareware虚拟机安装的Red Hat Enterprise Linux系统剩余空间不足,造成软件无法正常安装。如果重新装一遍系统就需要重新配置好开发环境和软件的安装配置。通过上网搜集的资料,结合自己的实践,总结了如下扩大硬盘空间的详细步骤,希望对大家有帮助。(1)打开VMware,选择E... 阅读全文