搜索排序算法

算法框架

典型的搜索排序算法框架如下图所示，分为线下训练和线上排序两个部分。模型包括相关性模型、时效性模型、个性化模型和点击模型等。特征包括Query特征、Doc特征、User特征和Query-Doc匹配特征等。日志包括展现日志、点击日志和Query日志。

特征选择

泛特征

Query特征：意图分类、关键词、词权重等。
Doc特征：文章分类、长度、点赞数等。
User特征：年龄、性别等。
Query-Doc匹配特征：类别匹配、BM25。
点击特征：CTR、首次点击等。

日志设计

展现日志：理论上可根据经验进行人工标注打分，并且作为模型的启动训练数据。
点击日志：用户的点击行为日志，可以用于Query日志挖掘，进行查询扩展等，例如多个query搜索结果用户都点击了同一篇文档，则可认为这些query相似。
Query日志：用于和点击／转化数据做联合分析。

posted @ 2021-02-24 21:20 今夜无风阅读(1004) 评论(0) 编辑收藏举报

刷新页面返回顶部