摘要:
今天学习了同事总结的搜索相关性计算方法,整理如下: 相关性指搜索query和页面之间的相关程度,衡量的维度有:文本相关性、权威性、查询需求满足。其中权威性要求同等条件下选择更优质、权威的结果;需求满足侧重了搜索个性化,同一个搜索词有多种不同含义,搜索引擎应该能够分析出用户的意图和需求,然后返回适合的结果。 常用的文本相关性模型有TF*IDF模型,TF:term frequency IDF=log(D/DW)(D:文档个数,DW:关键字W出现的文档个数),同时,还需要考虑: 1)term出现的顺序和相对位置 2)页面级别的特征:主题分析、反链anchor分析、页面类型、页面质量、站点... 阅读全文