query理解知识汇总
参考地址:
https://zhuanlan.zhihu.com/p/398630370
https://www.modb.pro/db/152185
https://blog.csdn.net/xiewenbo/article/details/103859633?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.essearch_pc_relevant&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.essearch_pc_relevant
https://www.zhihu.com/search?hybrid_search_extra=%7B%22sourceType%22%3A%22article%22%2C%22sourceId%22%3A398630370%7D&hybrid_search_source=Entity&q=%E5%A4%9A%E9%95%BF%E5%B0%BEQuery&search_source=Entity&type=content
https://www.jianshu.com/p/e46eae028af3
https://blog.csdn.net/shijing_0214/article/details/71250327
https://sunnews.cc/science/260206.html 专利:搜索词权重确定方法及装置
https://blog.csdn.net/shijing_0214/article/details/71080642
https://toutiao.io/posts/fa8crhu/preview
https://github.com/DA-southampton/Tech_Aarticle
https://mp.weixin.qq.com/s/_3_Z1OrRpyc0CfeJTVFlPQ
https://cloud.tencent.com/developer/article/1079150
https://blog.csdn.net/xiewenbo/article/details/103859633?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.essearch_pc_relevant&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.essearch_pc_relevant
https://www.bbsmax.com/A/D854OXZvJE/
https://www.gushiciku.cn/pl/pdtN
https://www.infoq.cn/article/mmaqiu9tg1sy4fixk6ai
http://www.52caml.com/deep_learning/dl-chapter9-recall-algorithm-dev/
https://cloud.tencent.com/developer/news/688362
论文:
a user-centered concept mining system for query and document understanding at towards concept-based translation models using search logs for query expansion.
概念:术语的约束组。构建统计翻译模型
<查询, web文档>
Web搜索中的一个基本挑战是术语不匹配,即在Web文档和搜索查询中,一个概念通常使用不同的词汇和语言风格来表达。查询扩展(QE)是解决此问题的有效策略。它使用其他相关术语(称为扩展术语)扩展用户发出的查询,以便检索更多相关文档。
基于日志的方法还有另外两个重要优点[10]。首先,由于搜索日志重新训练了数百万用户点击的查询文档对,术语相关性反映了大多数用户的偏好。其次,术语相关性随着用户日志的积累而发展。因此,QE过程可以在特定时间反映更新的用户兴趣。这些特性使得基于日志的QE成为提高商业搜索引擎Web搜索性能的一种很有前途的技术。
web搜索中的查询并不遵循严格的语言学规则
相似句生成任务,经典模型simbert,
query意图搜索模块-意图解析
1.对比通用搜索,boss求职搜索是结构化召回
2.ner是指导召回关键信号
在实际场景下,doc端的数据会包含很多结构化的字段,不同字段之间的语义差距会非常大,如果我们进行全字段检索,经常会出现一些语义漂移问题。比如,搜"销售专员",可能会找到"临时工",
因为它的字段里面包括"不是销售专员",所以需要结构化召回来保证更高的精度。
3.mention挖掘,其实就是实体的一个别名,用来扩大实体链接召回
4.对召回的query做消歧排序,返回最相关的top query
5.相关性模型,期望-query相关性,核心词识别。找出每个query中的token权重,中心词搜索权重最高
6.改写,自然语言表达多样。1)query和doc的表达差异,小孩游泳->儿童游泳;2)一词多义,理发->剪发、发型设计;3)一词多义,结婚照->婚纱照,结婚证件照
给老板开车
7.长尾词收益,搜索量很小,但每天都有搜索量:"幼儿园英语老师男",幼儿园、英语老师、男,要重职类即:"英语老师"权重最大
进一步地,还可以利用前面介绍的二部图迭代、深度语义匹配、Seq2Seq 翻译生成等 query 扩展方法从搜索点击弱监督行为中先挖掘出语义表达相近的 query-query、item-item 或 query-item 短语对,
然后再将语义相近的 query/item 短语对进行语义对齐,对齐的话可以采用一些规则的方法,也可以采用传统的统计翻译模型如 IBM-M2 进行对齐,
语义对齐后从中抽取出处于相同或相近上下文中的两个词语作为同义词对候选,然后结合一些统计特征、词语 embedding 相似度以及人工筛选等方式进行过滤筛选。
基于<query, title>的词权重分析方法
由于搜索引擎在根据用户提交的query在互联网上搜索相应的内容时,需要根据query中每个词term的重要性调整搜索策略,而query中的term出现在query对应的title中的次数越多说明
query中该term越重要。因此,统计<查询,标题>对中的词片段中每个词的出现情况信息,确定相同词片段中每个词的出现概率
方法:对query进行分词,得到query中的每一个term和相邻两个及以上的term组成的词组即所说的词片段,并统计词片段中每个term在其对应的title中的出现情况信息。
统计query中term在title里是否出现,并且把出现情况信息通过词片段的value值进行输出,进一步的根据每个词片段的value值统计相同词片段中每个term在title中的出现概率,由此得到
词片段中各个term的权重信息。
改写的类型:
1.抽象化改写;
2.具体化改写;
3.同义化改写;
4.多类型改写;