摘要:
转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。1. 网络爬虫本质就是浏览器http请求。 浏览器和网络爬虫是两种不同的网络客户端,都以... 阅读全文
摘要:
转自:http://blog.csdn.net/hguisu/article/details/79559851. 搜索引擎的分类搜索引擎按其工作方式主要可分为三种:分别是全文搜索引擎(Full Text Search Engine)目录索引类搜索引擎(Search Index/Directory)元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎 全文搜索引擎是名副其... 阅读全文