nutch - 随笔分类 - searchDM

【Nutch】Linux下应用nutch 1.0 Web前端实现单机检索

摘要：nutch的爬虫和搜索可以说是分离的两块，爬虫可以是M/R作业，但搜索不是M/R作业。搜索有两种方式：一是将爬虫数据(或者称索引数据)放在本地硬盘，进行搜索。二是直接搜索HDFS中的爬虫数据。这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据：(1)Nutch的搜索可以独立于hadoop集群，只要将爬虫下来的数据copy到任何机器，在此机器上安装一个tomcat，并运行nutch自带的... 阅读全文

posted @ 2010-06-25 10:08 searchDM 阅读(618) 评论(0) 推荐(0) 编辑

【nutch-1.1】nutch-1.1如何使用

摘要：从Hadoop技术论坛一个牛人那了解到，nutch-1.1使用的是hadoop-0.20.2，目前nutch-1.1还未发布，但在SVN上能够下载到，http://svn.apache.org/repos/asf/nutch/tags/1.1/ 用户可以chech out到Nutch-1.1nutch-1.1要正常运行要首先这样做： (1) nutch-default.xml下的plugin.fo... 阅读全文

posted @ 2010-06-25 10:08 searchDM 阅读(589) 评论(0) 推荐(0) 编辑

【Nutch-1.0】Windows下解决nutch-1.0的Web前端搜索无结果

摘要：nutch-1.0命令行中搜索有结果，但是到web前端搜索，始终无结果，无论怎么配置，搜索关键字，一直提示以下令人郁闷的信息：第0-0项 (共有 0 项查询结果) 很是郁闷，今天终于解决了。 (1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索) nutch-site.xml必须配置... 阅读全文

posted @ 2010-06-25 10:07 searchDM 阅读(538) 评论(0) 推荐(0) 编辑

Linux下Nutch分布式配置和使用

摘要：Linux下Nutch分布式配置和使用目录介绍 0 集群网络环境介绍 1 /etc/hosts文件配置 2 SSH无密码验证配置 2.1配置所有节点之间SSH无密码验证 3 JDK安装和Java环境变量配置 3.1 安装 JDK 1.6 3.2 Java环境变量配置 4 Hadoop集群配置 5 Hadoop集群启动 6 Nutch分布式爬虫 6.1配置Nutch配置文件 6.2 执行Nu... 阅读全文

posted @ 2010-06-25 10:06 searchDM 阅读(1888) 评论(1) 推荐(0) 编辑

Nutch1.0 Ui启动在tomcat中的配置

摘要： 1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面，比如 workspace. 3 、解压完后会有一个目录： webapps. 这个目录是 hadoop 自己所对应的页面。 datanode 、 h... 阅读全文

posted @ 2010-01-05 17:54 searchDM 阅读(293) 评论(0) 推荐(0) 编辑

nutch的基本工作流程理解

摘要：一）：Nutch的工作流程： Crawdb、linkdb 是web link目录，存放url及url的互联关系，作为爬行与重新爬行的依据。 segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录，是indexes目录里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。（一）：流程综述：【1】：injec... 阅读全文

posted @ 2010-01-05 15:42 searchDM 阅读(454) 评论(0) 推荐(0) 编辑

开源搜索引擎 Nutch 0.7 插件详解

摘要：nutch 0.7 plug-ins 详解最近桂林在关注nutch的进展状况，这里有几个重要的消息要和大家分享：1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架，目前和Egothor等搜索引擎结合的很好；地址：http://sourceforge.net/projects/carrot2 相关类：org.apache.nutch.clustering.OnlineClusterer Nutch Onl... 阅读全文

posted @ 2009-08-03 13:20 searchDM 阅读(456) 评论(0) 推荐(0) 编辑

Nutch搜索引擎之分布式文件系统

摘要：1.介绍NDFS：在一系列机器上存储庞大的面向流的文件，包含多机的存储冗余和负载均衡。文件以块为单位存储在NDFS的离散机器上，提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成，对用户是透明的。而且NDFS能很好地处理用于存储的机器序列，能方便地添加和删除一台机器。当某台机器不可用时，NDFS自动的保证文件的可用性。只要网上的机器序列能... 阅读全文

posted @ 2009-08-03 13:20 searchDM 阅读(538) 评论(0) 推荐(0) 编辑

nutch标题关键词高亮（变成红色）方法

摘要：在这个类里（D:\tomcat\webapps\ROOT\WEB-INF\lib\nutch-0.9.jar）HitDetails.class添加一个新定义：public String getColValue(String title,String digString){ return getValue(title).replaceAll(digString.toUpperCase(),"<strong>"+digString.toUpperCase()+"< >");}然后再search.jsp里把String title = 阅读全文

posted @ 2009-08-03 13:06 searchDM 阅读(409) 评论(0) 推荐(0) 编辑

分析Nutch的工作流程

摘要：Nutch的大致工作流程可以通过上一篇文章有了一定的了解了。在上一篇文章中，主要是针对一幅Nutch工作流程图片来了解Nutch的工作流程，十分感性，并没有涉及到任何关于Nutch的包和类。这里通过在网上下载的一个《Nutch入门学习》的PDF文档中介绍的内容，来详细组织一下，加深了解，为深入研究Nutch的源代码奠定良好的基础。这里通过几个标题来叙述。Nutch爬虫工作策略Nutch爬虫的工作策略一般则可以分为累积式抓取（cumulative crawling）和增量式抓取（incremental crawling）两种。累积式抓取是指从某一个时间点开始，通过遍历的方式抓取系统所能允许存储和阅读全文

posted @ 2009-08-03 13:05 searchDM 阅读(541) 评论(0) 推荐(0) 编辑

Nutch — 将查询的响应时间降低到0.5秒以内

摘要：Nutch 的索引文档数量在100W以下的时候，怎么处理查询响应都比较的快速，基本上不会超过0.5秒。但是超过200W索引文档的时候如果不处理，查询的响应时间就会超过这个数字。如果内存足够，甚至可以把200W的索引文档全部加载到内存，这时查询响应时间会小于0.1秒，但内存占用会超过1.5G，这种方式适合数据量比较小的查询系统，例如文献检索等。当数据量超过200W的时候如果全部加载到内存则不太适合了，因为受JVM最大内存的限制（1.2G到3.6G Linux下），加载超过200W索引页面的时候，JVM会溢出。以下介绍通过几种方式实现超过1000W的索引页面查询响应时间降低到0.5秒以内.. 阅读全文

posted @ 2009-08-03 13:05 searchDM 阅读(465) 评论(0) 推荐(0) 编辑

nutch0.9修改搜索页简介长度

摘要：在tomcat下root\WEB-INF\classes 的 nutch-default.xml文件的<name>searcher.summary.length</name><value>70</value>70就是简介的长度阅读全文

posted @ 2009-08-03 13:03 searchDM 阅读(211) 评论(0) 推荐(0) 编辑

wycg1984

随笔分类 - nutch

公告