搜索与排名

1.     搜索引擎索引数据库的schema

说明:
a.     urllist记录了已经索引过的url
b.     wordlist记录了已经索引过的word
c.     worklocation记录了word在url中的位置
d.     link记录了url间的跳转关系
e.     linkwords记录了word和link中链接的关系

2.     抓取数据和查询
a)     通过爬虫抓取网页内容,对其中Text数据的标签进行文本聚集,然后分词、数据加载到数据库
b)     通过单个词进行数据查询
c)     多个词查询时,对wordlocation表做自身的表关联

 


     
3.     搜索的排名:
a)     基于内容的排名
  i.     单词频度
  单词在url中出现次数的叠加
  ii.     文档位置
  靠近文档的开始处,排名越高
     将单词在url中出现的location求综合,最小的最佳
  iii.     单词距离
  如果查询多个单词,则其在文档中的位置应该靠的很近
b)     评价的归一化:
  有的评价值越高越好,有的则越低越好,为了整体的比较分析,采取归一化处理,将所有的结果落入[0,1]区间内,需要传入评价值越到越好,还是越小越小的标志\评价值list
  函数:value-min/max-min或者valure-max/max-min
c)     利用外部的回指链接:
  i.     url简单计数
  对此url的链接计数,然后归一化处理
  ii.     PageRank算法:

  在最初的时候将网页的PageRank值都设置为1.0

 
d)     利用链接文本:
  i.     通过指向某一网页的链接文本来决定网页的相关程度
4.     神经网络

posted @ 2017-01-07 09:54  成金之路  阅读(265)  评论(0编辑  收藏  举报