随笔分类 - nutch
摘要:nutch的爬虫和搜索可以说是分离的两块,爬虫可以是M/R作业,但搜索不是M/R作业。搜索有两种方式:一是将爬虫数据(或者称索引数据)放在本地硬盘,进行搜索。二是直接搜索HDFS中的爬虫数据。这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据:(1)Nutch的搜索可以独立于hadoop集群,只要将爬虫下来的数据copy到任何机器,在此机器上安装一个tomcat,并运行nutch自带的...
阅读全文
摘要:从Hadoop技术论坛一个牛人那了解到,nutch-1.1使用的是hadoop-0.20.2,目前nutch-1.1还未发布,但在SVN上能够下载到,http://svn.apache.org/repos/asf/nutch/tags/1.1/ 用户可以chech out到Nutch-1.1nutch-1.1要正常运行要首先这样做: (1) nutch-default.xml下的plugin.fo...
阅读全文
摘要:nutch-1.0命令行中搜索有结果,但是到web前端搜索,始终无结果,无论怎么配置,搜索关键字,一直提示以下令人郁闷的信息:第0-0项 (共有 0 项查询结果) 很是郁闷,今天终于解决了。 (1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索) nutch-site.xml必须配置...
阅读全文
摘要:Linux下Nutch分布式配置和使用 目 录 介绍 0 集群网络环境介绍 1 /etc/hosts文件配置 2 SSH无密码验证配置 2.1配置所有节点之间SSH无密码验证 3 JDK安装和Java环境变量配置 3.1 安装 JDK 1.6 3.2 Java环境变量配置 4 Hadoop集群配置 5 Hadoop集群启动 6 Nutch分布式爬虫 6.1配置Nutch配置文件 6.2 执行Nu...
阅读全文
摘要:<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } --> 1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/ 2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面,比如 workspace. 3 、解压完后会有一个目录: webapps. 这个目录是 hadoop 自己所对应的页面。 datanode 、 h...
阅读全文
摘要:一):Nutch的工作流程: Crawdb、linkdb 是web link目录,存放url及url的互联关系,作为爬行与重新爬行的依据。 segments 是主目录,存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录。 index 是lucene的索引目录,是indexes目录里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。 (一):流程综述: 【1】:injec...
阅读全文
摘要:nutch 0.7 plug-ins 详解最近桂林在关注nutch的进展状况,这里有几个重要的消息要和大家分享:1、nutch 0.7 发布了;2、nutch 的java源代码包路径改变成了org.apache...3、yahoo也使用了nutch,并做了很多的工作。1 2clustering-carrot2 : 一个搜索结果类聚的代码框架,目前和Egothor等搜索引擎结合的很好; 地址:http://sourceforge.net/projects/carrot2 相关类:org.apache.nutch.clustering.OnlineClusterer Nutch Onl...
阅读全文
摘要:1.介绍NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件的可用性。只要网上的机器序列能...
阅读全文
摘要:在这个类里(D:\tomcat\webapps\ROOT\WEB-INF\lib\nutch-0.9.jar)HitDetails.class添加一个新定义:public String getColValue(String title,String digString){ return getValue(title).replaceAll(digString.toUpperCase(),"<strong>"+digString.toUpperCase()+"< >");}然后再search.jsp里把String title =
阅读全文
摘要:Nutch的大致工作流程可以通过上一篇文章有了一定的了解了。在上一篇文章中,主要是针对一幅Nutch工作流程图片来了解Nutch的工作流程,十分感性,并没有涉及到任何关于Nutch的包和类。这里通过在网上下载的一个《Nutch入门学习》的PDF文档中介绍的内容,来详细组织一下,加深了解,为深入研究Nutch的源代码奠定良好的基础。这里通过几个标题来叙述。Nutch爬虫工作策略Nutch爬虫的工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统所能允许存储和
阅读全文
摘要:Nutch 的索引文档数量在100W以下的时候,怎么处理查询响应都比较的快速,基本上不会超过0.5秒。但是超过200W索引文档 的时候如果不处理,查询的响应时间就会超过这个数字。如果内存足够,甚至可以把200W的索引文档全部加载到内存,这时查询响应时间会小于0.1秒,但内存占用会超过1.5G,这种方式适合数据量比较小的查询系统,例如文献检索等。 当数据量超过200W的时候如果全部加载到内存则不太适合了,因为受JVM最大内存的限制(1.2G到3.6G Linux下),加载超过200W索引页面的时候,JVM会溢出。 以下介绍通过几种方式实现超过1000W的索引页面查询响应时间降低到0.5秒以内..
阅读全文
摘要:在tomcat下root\WEB-INF\classes 的 nutch-default.xml文件的<name>searcher.summary.length</name><value>70</value>70就是简介的长度
阅读全文