《集体智慧编程》读书笔记 2 - 网页排名
搜索与排名
1、全文搜索引擎,允许人们在大量文档中搜索一些列单词,并根据文档与这些单词的关联程度对结果进行排名。
2、词干提取算法(stemming algorithm)
词干提取算法试图将单词转换成对应的词干。例如,将单词“indexing”转换成“index”,这样当人们在搜索“index”时,也同样会得到包含indexing单词的文档。
3、基于内容的排名法(content-based ranking)
content-based ranking是根据网页的内容,利用某些可行的度量方式来对查询结果进行判断的。
常用的评价度量有三个:
①单词频度
被查询的单词在文档中出现的次数,它可以帮助我们判断该单词与某一文档的关联程度。
②文档位置
文档的主题有可能会出现在文档的起始处附近。
③单词距离
如果查询条件中有多个单词,则它们在文档中出现的位置应该靠得很近。
4、外部回指链接排名法(Inbound-link ranking)
Inbound-link ranking是利用站点的链接结构来决定查询结果中各项内容的重要程度。
①简单计数
就是简单统计有多少个链接指向了某个站点。该方法类似于人们将论文的重要程度与其他论文对它的引用次数相关联一样。
②PageRank
该算法为每一个网页都赋予了一个指示其重要程度的评价值PR。某一网页的重要程度是由指向该网页的所有其他网页的重要性(PR)以及这些网页中所包含的链接数求得的。
例如,有ABCD四个网页,现在BCD网页的PR值以及它们指向已知,求A网页的PR值。
value = PR(B)/Links(B) + PR(C)/Links(C) + PR(D)/Links(D)
= 0.5/4 + 0.7/5 + 0.2/1
= 0.125 + 0.14 + 0.2
= 0.465
在PageRank算法中,还有一个最小值0.15和一个阻尼系数0.85(阻尼系数即用户持续点击每个网页中链接的概率,具体可google)
故PR(A) = 0.15 + 0.85 * 0.465 = 0.54525
5、利用链接文本(Using Link Text)
大多数的时候,相比于被链接的网页自身所提供的信息而言,我们从指向该网页的链接中所得到的信息会更有价值。因为针对所指向的网页,网站的开发者们会倾向于提供一些解释其内容的简短描述。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构