ElasticSearch中文分词 & 电商搜索系统
Elasticsearch搜索中文分词优化
https://www.jianshu.com/p/914f102bc174
总是搜不到想要的内容?Elasticsearch搜索排名优化了解一下
https://cloud.tencent.com/developer/article/1667546
浅谈有赞搜索质量保障体系
https://tech.youzan.com/qian-tan-sou-suo-zhi-liang-bao-zhang-ti-xi/
全称命名实体识别(Named Entity Recognition,简称NER),指对查询词中的具有特定意义的语义实体进行识别。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。
一文详解 | 开放搜索兼容Elasticsearch做召回引擎
https://segmentfault.com/a/1190000041219881
ES 如何做好查询的相关性呢,既要保证查询的准确性,又要保证查询的查全?
答:准确率和查全率是两个有点互斥的指标,往往要根据业务指标从中间取个平衡点,比如结果虽然多但不会出现乱起八糟的结果(往往是索引方式的缘故)。相关度是个长期工作,没有 silver bullet。
构建企业级搜索方案?
https://www.infoq.cn/article/build-enterprise-search-scenarios-using-elasticsearch
词义分析主要是将用户输入的关键词通过NLP(Natural Language Processing 自然语言处理)理解词义,找到输入关键词的中心词,关键词按照不同的类型进行拆分并计算得分。
根据某大厂的一个通用实体命名接口,我们先将“阿玛尼臻致丝绒哑光唇釉”作为搜索的关键词模拟一下分词情况;可以看的分词的结果主要包括品类词、品牌词、属性词(修饰词)这三部分,权重也是依次递减。
从搜索分词的结果来看,自建词库在选择网上开源的词条的,同时也可以根据自家电商平台商品的属性来扩充词库。一般包括品牌词,品类词以及其他的商品属性词。
如何从0到1搭建电商搜索系统(一)
https://www.woshipm.com/pd/3422975.html
2.1电商搜索-实体识别含义
用户搜索“苹果”可能是想要水果的苹果,也可能是苹果手机;
对电商Query和标题进行实体词打标识别,其中包含品牌、品类、品类修饰、型号、款式等类别;
实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。
电商行业智能搜索技术原理全解析
https://zhuanlan.zhihu.com/p/374090379
召回阶段:给定一个查询词,从商品库中召回有效正确的商品候选集,并将结果返回给排序。召回方式有很多种,这里我们只介绍基于向量检索的召回。
排序阶段:给定召回商品的候选集合,根据众多因子对这些商品进行排序,挑选出最好的候选商品展示给用户。
京东电商搜索中的语义检索与商品排序
https://www.infoq.cn/article/pbwjrdjjshu2juzclceu
电商知识图谱
https://www.infoq.cn/article/0o7GLow94ScHsIQ1Nkxl
slop 参数
这种精确匹配在大部分情况下显得太严苛了,有时我们想要包含 ""I like swimming and riding!"" 的文档也能够匹配 "I like riding"。这时就要以用到 "slop" 参数来控制查询语句的灵活度。
slop
参数告诉 match_phrase
查询词条相隔多远时仍然能将文档视为匹配 什么是相隔多远? 意思是说为了让查询和文档匹配你需要移动词条多少次?
以 "I like swimming and riding!" 的文档为例,想匹配 "I like riding",只需要将 "riding" 词条向前移动两次,因此设置 slop
参数值为 2, 就可以匹配到。
https://www.cnblogs.com/reycg-blog/p/10012238.html
Elasticsearch Query DSL 整理总结(三)—— Match Phrase Query 和 Match Phrase Prefix Query
[Building Airbnb Categories with ML & Human in the Loop](https://medium.com/airbnb-engineering/building-airbnb-categories-with-ml-human-in-the-loop-35b78a837725)
淘宝搜索的向量召回算法MGDSPR
https://zhuanlan.zhihu.com/p/618814026
Facebook的多任务多模态向量召回模型Que2Search
https://zhuanlan.zhihu.com/p/619633283
Que2Search: Fast and Accurate Query and Document Understanding for Search at Facebook 阅读笔记
https://zhuanlan.zhihu.com/p/521332976
KDD'21 | 淘宝搜索中语义向量检索技术
https://zhuanlan.zhihu.com/p/409390150
Embedding-based Product Retrieval in Taobao Search
https://arxiv.org/pdf/2106.09297.pdf
Que2Search: Fast and Accurate Query and
Document Understanding for Search at Facebook
https://scontent-ams2-1.xx.fbcdn.net/v/t39.8562-6/246795273_2109661252514735_2459553109378891559_n.pdf?_nc_cat=105&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=1ZcDk60wbmIAX-iVyHE&_nc_ht=scontent-ams2-1.xx&oh=00_AfClgpVa26yFeRskfvA1KCqEMzlJ1xGlOH5r-Eb9JaHGRQ&oe=6431A1A3
KDD 21 工业界搜推广nlp论文整理
https://zhuanlan.zhihu.com/p/388115800
Recsys2021 | 推荐系统论文分类整理和导读
https://zhuanlan.zhihu.com/p/417652612
我们的消费者过去常常在使用 Grab 应用程序搜索食物时面临一些常见的痛点。有时,结果会包括尚未运营的商家或配送范围外的地点。其他时候,没有提供替代方案。搜索系统也很难处理拼写错误、不同语言的关键字、同义词,甚至字间距问题,从而导致用户体验欠佳。
在过去的几个月里,我们的搜索团队一直在构建可以解决这些问题的查询扩展框架。当用户查询进来时,它会根据语义相关性和用户意图将查询扩展到几个相关的关键字。然后使用原始查询搜索这些扩展词,以召回更多高质量和多样化的结果。现在让我们更深入地了解它是如何工作的。
[Query expansion based on user behaviour](https://engineering.grab.com/query-expansion-based-on-user-behaviour)
import
[From structured search to learning-to-rank-and-retrieve](https://www.amazon.science/blog/from-structured-search-to-learning-to-rank-and-retrieve)
[Elasticsearch 整合机器学习强化排序](https://mp.weixin.qq.com/s/NB3M9wjTkKo7zwRS1IAE2g?st=A8B83E94519A391EB0B375C1E105603364C84AB54233CD3B19B85AA1EDA8D86084C3531BA926C9C6B6FAEABF74A473590768AF6FF9E56666496A94B3AB46DB8F68D2F9C781421409F856F004F3FBC624113B7C7434020B82474E329132EBAB880E5A0326A3DFB5D0B2D7857EBE4064A61622DD479D7FBFBFBFBE61FB454C7F8D29E28FF8FC88AF8C088F82E7F3E446A48BA202F2677E7F2FE93FA92D0B741D2342FD0DF47195CBB50630AA9BDF3FBFF2585616197E3EABF1F46C125DEFC4B5BB&vid=1688856684375525&cst=B2DD6D20A099FE56BFC789F6391BA665E61A98924167A191CD8CF6F01A6D27F9CC2BF78947C571C705CE1FEAAC2C2143&deviceid=dea4a7d5-1ab0-4ff5-9bbb-a5e551cb62ca&version=4.0.8.90588&platform=mac)
[Unsupervised competing neural language model for word segmentation
](https://medium.com/coupang-engineering/unsupervised-competing-neural-language-model-for-word-segmentation-12becc1015bf)
[Matching duplicate items to improve catalog quality](https://medium.com/coupang-engineering/matching-duplicate-items-to-improve-catalog-quality-ca4abc827f94)
[Fueling the Coupang search engine
](https://medium.com/coupang-engineering/the-evolution-of-search-discovery-indexing-platform-fa43e41305f9)