eagleGeek - 博客园

2014年6月1日

摘要： Heritrix可分为四大模块：1、控制器CrawlController2、待处理的uri列表 Frontier3、线程池 ToeThread4、各个步骤的处理器（1）Pre-fetch processing chain：主要处理DNS-lookup, robots.txt,认证，抓取范围检查等。（... 阅读全文

posted @ 2014-06-01 16:56 eagleGeek 阅读(297) 评论(0) 推荐(0) 编辑

Eclipse 快捷键大全

摘要：精选常用：1、 ctrl+shift+r：打开资源这可能是所有快捷键组合中最省时间的了。这组快捷键可以让你打开你的工作区中任何一个文件，而你只需要按下文件名或mask名中的前几个字母，比如applic*.xml。美中不足的是这组快捷键并非在所有视图下都能用。2、ctrl+o：快速outline 如果... 阅读全文

posted @ 2014-06-01 13:05 eagleGeek 阅读(188) 评论(0) 推荐(0) 编辑

【Heritrix基础教程之2】Heritrix基本内容介绍

摘要： 1、版本说明（1）最新版本：3.3.0（2）最新release版本：3.2.0（3）重要历史版本：1.14.43.1.0及之前的版本：http://sourceforge.net/projects/archive-crawler/files/ 3.2.0及之后的版本：http://archive.o... 阅读全文

posted @ 2014-06-01 13:02 eagleGeek 阅读(104) 评论(0) 推荐(0) 编辑

【Heritrix基础教程之1】在Eclipse中配置Heritrix

摘要：一、新建项目并将Heritrix源码导入１、下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包，并解压，以后分别简称SRC包和ZIP包；２、在Eclipse下新建Java项目，取名Heritrix.1.14.4；３、复制SRC包下面src/java文... 阅读全文

posted @ 2014-06-01 00:00 eagleGeek 阅读(863) 评论(0) 推荐(0) 编辑

2014年5月29日

Berkeley DB基础教程

摘要：一、Berkeley DB的介绍（1）Berkeley DB是一个嵌入式数据库，它适合于管理海量的、简单的数据。如Google使用其来保存账户信息，Heritrix用其来保存froniter.（2）key/value是Berkeley DB用来管理数据的基础，每个key/value对代表一条记录。（... 阅读全文

posted @ 2014-05-29 15:21 eagleGeek 阅读(784) 评论(0) 推荐(0) 编辑

2014年5月26日

【搜索引擎Jediael开发笔记】v0.1完整代码

摘要：详细代码请见E:\Project\【重要】归档代码\SearchEngine归档代码或https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94或http://download.csdn... 阅读全文

posted @ 2014-05-26 15:17 eagleGeek 阅读(137) 评论(0) 推荐(0) 编辑

【搜索引擎Jediael开发笔记】V0.1完整代码

摘要：详细代码请见E:\Project\【重要】归档代码\SearchEngine归档代码或https://code.csdn.net/jediael_lu/jediael/tree/10991c839c51d32f825708b09451b2618a20ee94或http://download.csdn... 阅读全文

posted @ 2014-05-26 15:16 eagleGeek 阅读(191) 评论(0) 推荐(0) 编辑

2014年5月24日

关于serialVersionUID的说明

摘要： 1、为什么要使用serialVersionUID（1）对于实现了Serializable接口的类，可以将其序列化输出至磁盘文件中，同时会将其serialVersionUID输出到文件中。（2）然后有需要使用时，再从磁盘将对象内容及serialVersionUID读入内容中的某个对象。（3）将磁盘内容... 阅读全文

posted @ 2014-05-24 11:02 eagleGeek 阅读(147) 评论(0) 推荐(0) 编辑

String, StringBuilder 与StringBuffer的区别与联系

摘要： 1、区别（1）String构建的对象不能改变，每次对String进行操作时，如两个String相加，需要新建一个String对象，然后容纳最终的结果。而StringBuilder与StringBuffer构建的对象可以随时在修改其内容，而无需生成新的对象。一般新建一个对象是会生成16个字节的... 阅读全文

posted @ 2014-05-24 09:56 eagleGeek 阅读(157) 评论(0) 推荐(0) 编辑

2014年5月23日

【搜索引擎基础知识1】搜索引擎基本架构

摘要：（一）搜索引擎的开发一般可分为以下三大部分1、数据采集层：一般使用爬虫获取互联网的数据，重要的开源项目有Heritrxi2、数据分析处理层：将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容，等待用户查询使用，重要的开源项目有Lucene3、视图层：也用户的交互界面，如一个网站的首页... 阅读全文

posted @ 2014-05-23 16:00 eagleGeek 阅读(339) 评论(0) 推荐(0) 编辑

公告