搜索引擎4大系统:
下载系统
网页分析
建立索引
查询服务
1
http协议:客户端和服务器建立一条tcp链接进程,然后发出请求并读取服务器进程的应答,然后关闭链接结束一次响应,返回的内容包括一个头部信息,和主题部分
2
记录未访问和已访问的URL:未访问表,已访问表,避免重复收集
3
域名和IP问题:一对一,一对多,多对多,不能单方面的用ip来判定是否是同一个站点,内容重复的站点搜索引擎只会选择其中一个作为主站来抓取。
4
网页的重要度:
优先抓取:网页如度大,被引用的多
网页的上层页面入度大
网页的镜像度高
网页的目录深度小
网页权重公式:网页的权重=网页的入度,上层网页的入度,网页的镜像度,网页的目录深度。
5
网页收集的分布式系统,多台服务器多线程同时抓取,还要确保不重复抓取来提高收集效率,种子站点开始的深度优先和广度优先为的是先收集重要页面的信息。
6
链接的权重,每个URL都有一个初始值,如果URL中出现了?&,等都会降低权值。
搜集信息的类型:html,pdf,doc。
7
稳定和高效的下载系统是一个搜索引擎提供服务的根据,搜索引擎能否做到高时效性,就要看他的下载系统策略和下载系统的性能了,对于商业搜索引擎来说,是非常重要的!
1
网页分析的必要性:
网页的保存格式
共同点都是为了提高效率
每个网页中什么地方最重要?
举个大家都能理解的例子。
2
好刚用在刀刃上
搜索引擎的权重板块的提取。
什么位置最不重要
什么样的网页最重要?
3
分析系统
搜索引擎不是人,看不懂网页
解决方法:切词
高频无关次:没有什么表达意义的词
集中切词方法,正向最大匹配,逆向最大匹配,最小化切词
将网页转化形态
变成网页到词集合的过程,变成词,才能查询索引,返回结果。
都是为最后的查询服务,服务的
4
网页消重
网页消重的必要性
如何判断文章是谁原创的。
根据这个文章第一次收录的时间,
链接,引用文章的人把原来的链接给加上了!
采集别人的网站,然后修改,然后成为原创
少量的重复是允许的,特别是门户站
5
噪音板块
什么是噪音板块?
为什么要消除噪音板块?
噪音板块一般出现的位置
过滤噪音板块,留下真正意义上的内容。
6
建立索引
通过上面的分析,接下来就是要建立索引了