搜索与排名
1. 搜索引擎索引数据库的schema
说明:
a. urllist记录了已经索引过的url
b. wordlist记录了已经索引过的word
c. worklocation记录了word在url中的位置
d. link记录了url间的跳转关系
e. linkwords记录了word和link中链接的关系
2. 抓取数据和查询
a) 通过爬虫抓取网页内容,对其中Text数据的标签进行文本聚集,然后分词、数据加载到数据库
b) 通过单个词进行数据查询
c) 多个词查询时,对wordlocation表做自身的表关联
3. 搜索的排名:
a) 基于内容的排名
i. 单词频度
单词在url中出现次数的叠加
ii. 文档位置
靠近文档的开始处,排名越高
将单词在url中出现的location求综合,最小的最佳
iii. 单词距离
如果查询多个单词,则其在文档中的位置应该靠的很近
b) 评价的归一化:
有的评价值越高越好,有的则越低越好,为了整体的比较分析,采取归一化处理,将所有的结果落入[0,1]区间内,需要传入评价值越到越好,还是越小越小的标志\评价值list
函数:value-min/max-min或者valure-max/max-min
c) 利用外部的回指链接:
i. url简单计数
对此url的链接计数,然后归一化处理
ii. PageRank算法:
在最初的时候将网页的PageRank值都设置为1.0
d) 利用链接文本:
i. 通过指向某一网页的链接文本来决定网页的相关程度
4. 神经网络