随笔分类 - nutch
摘要:PDF文档:Nutch大数据相关框架讲义.pdfNutch1.7二次开发培训讲义.pdfNutch1.7二次开发培训讲义之腾讯微博抓取分析Nutch公开课从搜索引擎到网络爬虫=============================================================Nu...
阅读全文
摘要:http://blog.csdn.net/chinesesword/article/details/19166765http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html
阅读全文
摘要:今天在使用JDBC操作mysql时遇到下面的异常信息:引用The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the ...
阅读全文
摘要:mysql根据配置文件会限制server接受的数据包大小。有时候大的插入和更新会受max_allowed_packet 参数限制,导致写入或者更新失败。查看目前配置show VARIABLES like '%max_allowed_packet%';显示的结果为:+-----------------...
阅读全文
摘要:nutch网上有不少有它的源码解析,但是采集这块还是不太让人容易理解.今天终于知道怎么,弄的.现在把crawl-urlfilter.txt文件贴出来,让大家一块交流,也给自己备忘录一个。# Licensed to the Apache Software Foundation (ASF) under ...
阅读全文
摘要:1、Apache NutchApache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件结构WebDB:存储网页数据和连接信息Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索Fetc...
阅读全文
摘要:第1章引言1.1nutch和solrNutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr拥有像web-services API的独立的企业级搜索服务器。用XML通过HTTP向它添加文档(称为做索引),通过HTTP查询返回XML结果。1.2研究nutch的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3点原因:透明度:nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允
阅读全文
摘要:plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它就是一个对parser这个接口的实现2:灵活性 因为每个人都可以根据自己的需求而写自己的plugin,这样plugin就会有一个很强大的资源库。这样对与应用nutch程序员来说,他可以在自己的搜索引擎上
阅读全文
摘要:1.为处理方便,直接在nutch/conf/crawl-urlfilter.txt,找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则,改写为如下形式+^http://([a-z0-9]
阅读全文
摘要:用cygwin运行nutch 1.2爬取提示IOException:[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent
阅读全文
摘要:Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch可以分为2个部分:抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。 搜索程序则对反向索引搜索回答用户的请求。Nutch的爬虫有两种方式爬行企业内部网(Intranet crawling)。针对少数网站进行,用crawl命令。爬行整个互联网。使用低层的inject,generate,fetch和updatedb命令,具有更强的可控制性。昨晚折腾了一晚上终于是大功告成了!这里要说的是基于Intranet(企业内部网)的环境配...
阅读全文
摘要:就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境.
阅读全文
摘要:Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0 配置:http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.htmlNutch 实战:介绍了开源搜索引擎 Nutch 的基本信息,详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意
阅读全文