JackieZheng - 博客园

Fork me on GitHub

2014年8月10日

在ssh中利用Solr服务建立的界面化站内搜索---solr2

摘要：本篇主要通过利用nutch爬取的页面，并将索引写入solr服务器中，结合solrj的api编写界面化的搜索界面，包括高亮和搜索的规则和关键字的设置，点击搜索实现指定规则或是关键字的搜索并呈现搜索结果。阅读全文

posted @ 2014-08-10 12:06 JackieZheng 阅读(2585) 评论(30) 推荐(1)

2014年8月6日

Nutch源码阅读进程5---updatedb

摘要：本文主要介绍nutch的五个环节中的最后一个流程update的具体执行流程。阅读全文

posted @ 2014-08-06 13:36 JackieZheng 阅读(463) 评论(0) 推荐(0)

2014年8月5日

利用Solr服务建立的站内搜索雏形---solr1

摘要：本篇主要是通过solrj访问虚拟机中部署在tomcat的solr服务器，根据指定的查询条件，得到搜索结果，并打印出搜索结果。阅读全文

posted @ 2014-08-05 22:07 JackieZheng 阅读(1949) 评论(4) 推荐(0)

2014年8月3日

Nutch源码阅读进程4---parseSegment

摘要：本篇主要解读了nutch的第四个环节parse过程的执行流程和处理方法。阅读全文

posted @ 2014-08-03 11:35 JackieZheng 阅读(1381) 评论(0) 推荐(0)

2014年8月2日

Nutch源码阅读进程3---fetch

摘要：本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程，其中包括通过生产者-消费者的模型解决爬虫问题，nutch如何爬取页面以及对于不同的返回状态做相应的处理机制，其中还涉及到一些多线程的知识。阅读全文

posted @ 2014-08-02 15:23 JackieZheng 阅读(1308) 评论(0) 推荐(0)

2014年7月27日

Nutch源码阅读进程2---Generate

摘要：本文主要讲解了自己阅读nutch中Generate整个运行过程，Generate主要分为以下几个部分：以前面的Inject过程得到的输出crawldb为输入提交job并得到抓取列表存放在临时文件夹中；再以该临时文件夹中的数据为输入提交一个job并得到一个输出segments；最后更新crawldb，避免爬取的url不会重复。阅读全文

posted @ 2014-07-27 20:35 JackieZheng 阅读(1251) 评论(0) 推荐(0)

2014年7月26日

Nutch源码阅读进程1---inject

摘要：本文主要从nutch的Crawl方法开始，分享了nutch爬取的第一个步骤——注入（Inject）以及具体的流程和处理的方法阅读全文

posted @ 2014-07-26 14:53 JackieZheng 阅读(1379) 评论(0) 推荐(0)

2014年4月4日

windows环境下跑hadoop自带的wordcount遇到的问题

摘要： ubuntu的伪分布hadoop环境下跑wordcount遇到的问题以及windows下运行wordcount遇到的问题及解决办法。阅读全文

posted @ 2014-04-04 15:06 JackieZheng 阅读(673) 评论(0) 推荐(0)