ElasticSearch中文分词 & 电商搜索系统

 

Elasticsearch搜索中文分词优化
https://www.jianshu.com/p/914f102bc174

 

总是搜不到想要的内容?Elasticsearch搜索排名优化了解一下
https://cloud.tencent.com/developer/article/1667546

 

浅谈有赞搜索质量保障体系
https://tech.youzan.com/qian-tan-sou-suo-zhi-liang-bao-zhang-ti-xi/

 

全称命名实体识别(Named Entity Recognition,简称NER),指对查询词中的具有特定意义的语义实体进行识别。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。


一文详解 | 开放搜索兼容Elasticsearch做召回引擎
https://segmentfault.com/a/1190000041219881

 

ES 如何做好查询的相关性呢,既要保证查询的准确性,又要保证查询的查全?

答:准确率和查全率是两个有点互斥的指标,往往要根据业务指标从中间取个平衡点,比如结果虽然多但不会出现乱起八糟的结果(往往是索引方式的缘故)。相关度是个长期工作,没有 silver bullet。

 

构建企业级搜索方案?
https://www.infoq.cn/article/build-enterprise-search-scenarios-using-elasticsearch

 

词义分析主要是将用户输入的关键词通过NLP(Natural Language Processing 自然语言处理)理解词义,找到输入关键词的中心词,关键词按照不同的类型进行拆分并计算得分。

根据某大厂的一个通用实体命名接口,我们先将“阿玛尼臻致丝绒哑光唇釉”作为搜索的关键词模拟一下分词情况;可以看的分词的结果主要包括品类词、品牌词、属性词(修饰词)这三部分,权重也是依次递减。

从搜索分词的结果来看,自建词库在选择网上开源的词条的,同时也可以根据自家电商平台商品的属性来扩充词库。一般包括品牌词,品类词以及其他的商品属性词。


如何从0到1搭建电商搜索系统(一)
https://www.woshipm.com/pd/3422975.html

 

2.1电商搜索-实体识别含义

用户搜索“苹果”可能是想要水果的苹果,也可能是苹果手机;
对电商Query和标题进行实体词打标识别,其中包含品牌、品类、品类修饰、型号、款式等类别;


实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。


电商行业智能搜索技术原理全解析
https://zhuanlan.zhihu.com/p/374090379

 

召回阶段:给定一个查询词,从商品库中召回有效正确的商品候选集,并将结果返回给排序。召回方式有很多种,这里我们只介绍基于向量检索的召回。

排序阶段:给定召回商品的候选集合,根据众多因子对这些商品进行排序,挑选出最好的候选商品展示给用户。


京东电商搜索中的语义检索与商品排序
https://www.infoq.cn/article/pbwjrdjjshu2juzclceu

 

电商知识图谱
https://www.infoq.cn/article/0o7GLow94ScHsIQ1Nkxl

 

slop 参数

这种精确匹配在大部分情况下显得太严苛了,有时我们想要包含 ""I like swimming and riding!"" 的文档也能够匹配 "I like riding"。这时就要以用到 "slop" 参数来控制查询语句的灵活度。

slop 参数告诉 match_phrase 查询词条相隔多远时仍然能将文档视为匹配 什么是相隔多远? 意思是说为了让查询和文档匹配你需要移动词条多少次?

以 "I like swimming and riding!" 的文档为例,想匹配 "I like riding",只需要将 "riding" 词条向前移动两次,因此设置 slop 参数值为 2, 就可以匹配到。

 

https://www.cnblogs.com/reycg-blog/p/10012238.html
Elasticsearch Query DSL 整理总结(三)—— Match Phrase Query 和 Match Phrase Prefix Query

 

[Building Airbnb Categories with ML & Human in the Loop](https://medium.com/airbnb-engineering/building-airbnb-categories-with-ml-human-in-the-loop-35b78a837725)

 

淘宝搜索的向量召回算法MGDSPR
https://zhuanlan.zhihu.com/p/618814026

Facebook的多任务多模态向量召回模型Que2Search
https://zhuanlan.zhihu.com/p/619633283

 

Que2Search: Fast and Accurate Query and Document Understanding for Search at Facebook 阅读笔记
https://zhuanlan.zhihu.com/p/521332976

KDD'21 | 淘宝搜索中语义向量检索技术
https://zhuanlan.zhihu.com/p/409390150

 

Embedding-based Product Retrieval in Taobao Search
https://arxiv.org/pdf/2106.09297.pdf

Que2Search: Fast and Accurate Query and
Document Understanding for Search at Facebook
https://scontent-ams2-1.xx.fbcdn.net/v/t39.8562-6/246795273_2109661252514735_2459553109378891559_n.pdf?_nc_cat=105&ccb=1-7&_nc_sid=ad8a9d&_nc_ohc=1ZcDk60wbmIAX-iVyHE&_nc_ht=scontent-ams2-1.xx&oh=00_AfClgpVa26yFeRskfvA1KCqEMzlJ1xGlOH5r-Eb9JaHGRQ&oe=6431A1A3

 

KDD 21 工业界搜推广nlp论文整理
https://zhuanlan.zhihu.com/p/388115800

Recsys2021 | 推荐系统论文分类整理和导读
https://zhuanlan.zhihu.com/p/417652612

 

我们的消费者过去常常在使用 Grab 应用程序搜索食物时面临一些常见的痛点。有时,结果会包括尚未运营的商家或配送范围外的地点。其他时候,没有提供替代方案。搜索系统也很难处理拼写错误、不同语言的关键字、同义词,甚至字间距问题,从而导致用户体验欠佳。

在过去的几个月里,我们的搜索团队一直在构建可以解决这些问题的查询扩展框架。当用户查询进来时,它会根据语义相关性和用户意图将查询扩展到几个相关的关键字。然后使用原始查询搜索这些扩展词,以召回更多高质量和多样化的结果。现在让我们更深入地了解它是如何工作的。

[Query expansion based on user behaviour](https://engineering.grab.com/query-expansion-based-on-user-behaviour)

 

import

[From structured search to learning-to-rank-and-retrieve](https://www.amazon.science/blog/from-structured-search-to-learning-to-rank-and-retrieve)

 

[Elasticsearch 整合机器学习强化排序](https://mp.weixin.qq.com/s/NB3M9wjTkKo7zwRS1IAE2g?st=A8B83E94519A391EB0B375C1E105603364C84AB54233CD3B19B85AA1EDA8D86084C3531BA926C9C6B6FAEABF74A473590768AF6FF9E56666496A94B3AB46DB8F68D2F9C781421409F856F004F3FBC624113B7C7434020B82474E329132EBAB880E5A0326A3DFB5D0B2D7857EBE4064A61622DD479D7FBFBFBFBE61FB454C7F8D29E28FF8FC88AF8C088F82E7F3E446A48BA202F2677E7F2FE93FA92D0B741D2342FD0DF47195CBB50630AA9BDF3FBFF2585616197E3EABF1F46C125DEFC4B5BB&vid=1688856684375525&cst=B2DD6D20A099FE56BFC789F6391BA665E61A98924167A191CD8CF6F01A6D27F9CC2BF78947C571C705CE1FEAAC2C2143&deviceid=dea4a7d5-1ab0-4ff5-9bbb-a5e551cb62ca&version=4.0.8.90588&platform=mac)

 

[Unsupervised competing neural language model for word segmentation
](https://medium.com/coupang-engineering/unsupervised-competing-neural-language-model-for-word-segmentation-12becc1015bf)

 

[Matching duplicate items to improve catalog quality](https://medium.com/coupang-engineering/matching-duplicate-items-to-improve-catalog-quality-ca4abc827f94)

[Fueling the Coupang search engine
](https://medium.com/coupang-engineering/the-evolution-of-search-discovery-indexing-platform-fa43e41305f9)

posted @ 2023-03-31 10:40  parkdifferent  阅读(765)  评论(0编辑  收藏  举报