搜索与排名

1.     搜索引擎索引数据库的schema

说明:
a.     urllist记录了已经索引过的url
b.     wordlist记录了已经索引过的word
c.     worklocation记录了word在url中的位置
d.     link记录了url间的跳转关系
e.     linkwords记录了word和link中链接的关系

2.     抓取数据和查询
a)     通过爬虫抓取网页内容,对其中Text数据的标签进行文本聚集,然后分词、数据加载到数据库
b)     通过单个词进行数据查询
c)     多个词查询时,对wordlocation表做自身的表关联

 


     
3.     搜索的排名:
a)     基于内容的排名
  i.     单词频度
  单词在url中出现次数的叠加
  ii.     文档位置
  靠近文档的开始处,排名越高
     将单词在url中出现的location求综合,最小的最佳
  iii.     单词距离
  如果查询多个单词,则其在文档中的位置应该靠的很近
b)     评价的归一化:
  有的评价值越高越好,有的则越低越好,为了整体的比较分析,采取归一化处理,将所有的结果落入[0,1]区间内,需要传入评价值越到越好,还是越小越小的标志\评价值list
  函数:value-min/max-min或者valure-max/max-min
c)     利用外部的回指链接:
  i.     url简单计数
  对此url的链接计数,然后归一化处理
  ii.     PageRank算法:

  在最初的时候将网页的PageRank值都设置为1.0

 
d)     利用链接文本:
  i.     通过指向某一网页的链接文本来决定网页的相关程度
4.     神经网络

posted @   成金之路  阅读(268)  评论(0编辑  收藏  举报
编辑推荐:
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
阅读排行:
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
点击右上角即可分享
微信分享提示