摘要: 搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎的工作分为四个步骤:1. 爬行和抓取2.索引3.搜索词处理4.排序以上内容来自百度百科,搜索引擎原理。第一步 准备raw files和lucene的对象文件其中爬行和抓取需要很长时间去下载网页。这里为了快速实现一个搜索引擎。我使用数据库中的记录作为搜索引擎的raw file 来代替下载的网页。在l 阅读全文
posted @ 2012-08-29 19:18 LLLeon 阅读(521) 评论(0) 推荐(0) 编辑