摘要:
搜索引擎4大系统:下载系统网页分析建立索引查询服务1http协议:客户端和服务器建立一条tcp链接进程,然后发出请求并读取服务器进程的应答,然后关闭链接结束一次响应,返回的内容包括一个头部信息,和主题部分2记录未访问和已访问的URL:未访问表,已访问表,避免重复收集3域名和IP问题:一对一,一对多,多对多,不能单方面的用ip来判定是否是同一个站点,内容重复的站点搜索引擎只会选择其中一个作为主站来抓取。4网页的重要度:优先抓取:网页如度大,被引用的多网页的上层页面入度大网页的镜像度高网页的目录深度小网页权重公式:网页的权重=网页的入度,上层网页的入度,网页的镜像度,网页的目录深度。5网页收集的分 阅读全文