摘要:
现在互联网上存在的网页数量是数以百亿千亿计的,这些网站存储在不同的服务器上,分布在世界各地的数据中心和机房。 对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。一方面原因是抓取技术存在瓶颈,无法遍历所有网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页面平均大小20K计算(包含图片),100亿网页的容量是100×2000G字节(相当于80个容量为250G的硬盘),即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算,需要340台机器不停的下载一年时间 阅读全文
摘要:
大多数的网友都应该使用过百度,Google(谷歌),雅虎等搜索网站找找“什么是目前流行的游戏?,什么是博客,什么是。。。”,能给我们提供答案的这些搜索网站就是我们要探讨的“搜索引擎”。那么,搜索引擎的标准定义是什么?目前还没有一个公认的答案,倒是可以借助微软大百科全书中的一段话:“搜索引擎是帮助用户查找存储在个人电脑、计算机网络如互联网上的信息的软件程序。用户输入搜索项目,通常是通过录入一个关键词或短语,搜索引擎通过扫描被搜索的计算机和计算机网络,或者分解(分析)它们数据的索引,返回万维网站点、个人电脑文件或文档的列表。” 如果你经常使用百度,那么你把百度认为它就是搜索引擎是没有任何问题的。 阅读全文