nutch - 随笔分类 - 风与叶子

Nutch相关框架视频教程--说明

摘要：PDF文档：Nutch大数据相关框架讲义.pdfNutch1.7二次开发培训讲义.pdfNutch1.7二次开发培训讲义之腾讯微博抓取分析Nutch公开课从搜索引擎到网络爬虫=============================================================Nu... 阅读全文

posted @ 2014-07-06 14:34 风与叶子阅读(768) 评论(0) 推荐(0)

nutch2.2.1安装部署

摘要：http://blog.csdn.net/chinesesword/article/details/19166765http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html 阅读全文

posted @ 2014-06-28 11:51 风与叶子阅读(219) 评论(0) 推荐(0)

The last packet sent successfully to the server was 0 milliseconds ago.[nutch---mysql ]

摘要：今天在使用JDBC操作mysql时遇到下面的异常信息：引用The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the ... 阅读全文

posted @ 2014-04-23 14:14 风与叶子阅读(16399) 评论(0) 推荐(0)

mysql max_allowed_packet 设置过小导致记录写入失败

摘要：mysql根据配置文件会限制server接受的数据包大小。有时候大的插入和更新会受max_allowed_packet 参数限制，导致写入或者更新失败。查看目前配置show VARIABLES like '%max_allowed_packet%';显示的结果为：+-----------------... 阅读全文

posted @ 2014-04-23 09:41 风与叶子阅读(218) 评论(0) 推荐(0)

Nutch URL过滤配置规则

摘要：nutch网上有不少有它的源码解析,但是采集这块还是不太让人容易理解.今天终于知道怎么,弄的.现在把crawl-urlfilter.txt文件贴出来,让大家一块交流,也给自己备忘录一个。# Licensed to the Apache Software Foundation (ASF) under ... 阅读全文

posted @ 2014-04-23 08:46 风与叶子阅读(553) 评论(0) 推荐(0)

Nutch+Hadoop集群搭建

摘要：1、Apache NutchApache Nutch是一个用于网络搜索的开源框架，它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。1.1、Nutch的组件结构WebDB:存储网页数据和连接信息Fetch lists:将WebDB所存储的连接分成多个组，来用于分布式检索Fetc... 阅读全文

posted @ 2014-04-21 15:38 风与叶子阅读(481) 评论(0) 推荐(0)

Apache nutch1.5 & Apache solr3.6

摘要：第1章引言1.1nutch和solrNutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Solr拥有像web-services API的独立的企业级搜索服务器。用XML通过HTTP向它添加文档(称为做索引)，通过HTTP查询返回XML结果。1.2研究nutch的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3点原因:透明度:nutch是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的。商业的搜索引擎排序算法都是保密的,我们无法知道为什么搜索出来的排序结果是如何算出来的。更进一步,一些搜索引擎允阅读全文

posted @ 2014-04-10 22:48 风与叶子阅读(240) 评论(0) 推荐(0)

浅谈Nutch插件机制（含开发实例）

摘要：plugin(插件)为nutch提供了一些功能强大的部件，举个例子，HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。为什么nutch要使用这样的plugin系统? 有三个原因：1：可扩展性通过plugin，nutch允许任何人扩展它的功能，而我们要做的只是对给定的接口做简单的实现，举个例子：MSWordParser这个插件是用来分析wordwendang的，它就是一个对parser这个接口的实现2：灵活性因为每个人都可以根据自己的需求而写自己的plugin，这样plugin就会有一个很强大的资源库。这样对与应用nutch程序员来说，他可以在自己的搜索引擎上阅读全文

posted @ 2013-09-18 14:19 风与叶子阅读(356) 评论(0) 推荐(0)

windows下配置nutch注意的问题

摘要：1.为处理方便，直接在$nutch目录下创建一个名为url.txt文件，然后在文件里添加要搜索的网址，例如：http://www.sina.com.cn/，注意网址最后的"/"一定要有。前面的"http://"也是必不可少的。2.配置crawl-urlfilter.txt打开$nutch/conf/crawl-urlfilter.txt，找到这两行# accept hosts in MY.DOMAIN.NAME+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/红色部分是一个正则，改写为如下形式+^http://([a-z0-9] 阅读全文

posted @ 2013-09-18 14:18 风与叶子阅读(355) 评论(0) 推荐(0)

nutch爬取时Exception in thread “main” java.io.IOException: Job failed!

摘要：用cygwin运行nutch 1.2爬取提示IOException：[plain]view plaincopy$bin/nutchcrawlurls-dircrawl-depth3-topN10crawlstartedin:crawlrootUrlDir=urlsthreads=10depth=3indexer=lucenetopN=10Injector:startingat2011-10-1015:19:26Injector:crawlDb:crawl/crawldbInjector:urlDir:urlsInjector:Convertinginjectedurlstocrawldbent 阅读全文

posted @ 2013-09-18 14:15 风与叶子阅读(1670) 评论(0) 推荐(0)

Windows下Nutch的配置

摘要：Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。Nutch可以分为2个部分：抓取部分crawler 抓取程序抓取页面并把抓取回来的数据做成反向索引搜索部分searcher。搜索程序则对反向索引搜索回答用户的请求。Nutch的爬虫有两种方式爬行企业内部网(Intranet crawling)。针对少数网站进行，用crawl命令。爬行整个互联网。使用低层的inject，generate，fetch和updatedb命令，具有更强的可控制性。昨晚折腾了一晚上终于是大功告成了！这里要说的是基于Intranet(企业内部网)的环境配... 阅读全文

posted @ 2013-09-18 14:14 风与叶子阅读(415) 评论(0) 推荐(0)

nutch 存储到数据库

摘要：就像我们知道的一样,nutch是一个架构在lucene之上的网络爬虫+搜索引擎.是由lucene的作者在lucene基础之上开发,并整合了hadoop,实现在分布式云计算,使用google标准的HFDS文件系统作为存储结构,是一款高伸缩性能与高效高并发的网络爬虫+搜索引擎.FaceYe在后台已经整合了nutch,在适当的时候,就可以开始为用户提供高质量的知识索引服务.顺便说一下,nutch在生产环境中,并不能在windows下运行,需要在liux下运行,这其中主要是hadoop采用了一些shello脚本,当然,开发平台还是可以搭建在window下,但需要安装cygwin,来模拟shell环境. 阅读全文

posted @ 2013-09-18 14:10 风与叶子阅读(620) 评论(1) 推荐(0)

Nutch 使用总结

摘要：Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch使用方法简介：http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0 配置:http://hi.baidu.com/oliverwinner/blog/item/4be3f1370284b32f5ab5f565.htmlNutch 实战：介绍了开源搜索引擎 Nutch 的基本信息，详细说明了在 Eclispe 下运行 Nutch 的步骤和需要注意阅读全文

posted @ 2013-09-18 14:09 风与叶子阅读(409) 评论(0) 推荐(0)

风与叶子

像蚂蚁一样工作，像蝴蝶一样生活。

随笔分类 - nutch

公告