代码改变世界

搜索引擎概要认识

2011-05-12 20:46  Aga.J  阅读(317)  评论(0编辑  收藏  举报

1 搜索引擎是一种在Web上应用的软件系统,以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。

2 搜索引擎提供信息查询服务的时候,面对的只是查询词,但是每个用户关心的是和这个查询词相关的不同方面的信息,所以搜索引擎应该争取不要漏掉任何相关的信息,把用户最关系的信息排在搜索结果的列表最前。

3 搜索引擎需要解决大规模并发的用户事件。

4 搜索引擎实际上需要自己先对网络上的网页进行搜索爬取,存放到自己的数据库服务器中,当用户提交搜索请求时,搜索引擎从系统内部进行搜索,获取必要的信息,返回url列表,而用户这时候点击的url,访问的才是网页的原始出处。

5 以web网页为对象的搜索引擎和以FTP文件为对象的检索系统的一个基本的不同点在于搜索信息的过程。前者是利用HTML文档之间的链接关系,在web上一个网页一个网页的爬去,将那些网页抓到本地后进行分析;后者是根据已经有的关于FTP站点地址的信息,对那些站点进行访问,获得其文件目录信息,并不是真正的将那些文件下载到系统上来。