ElasticSearch - 什么是向量搜索以及它如何改进搜索结果
了解向量搜索
向量搜索代表了搜索技术的飞跃,它利用机器学习和人工智能的力量来理解单词和文档之间的语义关系。向量搜索不仅仅依赖于关键字匹配,而是创建文档和查询的数学表示,使其能够理解不同信息的上下文、相关性和相似性。
为了掌握向量搜索的概念,将向量想象为多维空间中指向不同方向的箭头。 每个向量代表一个文档或查询,向量的方向和大小代表其中单词的上下文和重要性。 通过计算向量之间的余弦相似度,向量搜索引擎可以根据查询向量和文档向量之间的角度来识别最相关的文档。
那传统的基于关键词的搜索和向量相似度搜索有什么区别? 多年来,关系数据库和全文搜索引擎一直是现代 IT 系统中信息检索的基础。 例如,可以向每段内容(图像或文本)或每个实体(产品、用户、物联网设备或任何其他实体)添加标签或类别关键字,例如 “movie”、“music” 或 “actor” 。 然后,可以将这些记录添加到数据库中,以便可以使用这些标签或关键字执行搜索。
向量搜索的优点
向量搜索具有几个关键优势,有助于提高搜索结果的有效性:
- 增强相关性:通过考虑单词和文档之间的语义关系,向量搜索提供更准确和相关的搜索结果,显着减少不相关的匹配。
- 灵活性和适应性:与传统的基于关键字的搜索不同,向量搜索可以适应不同的语言、领域,甚至可以有效地处理拼写错误的单词或同义词。
- 个性化:向量搜索能够了解用户偏好并相应定制搜索结果,提供个性化的搜索体验。
向量搜索改变业务
向量搜索不仅适用于图像和文本内容。 当可以定义一个向量来表示每个事物时,它还可以用于对业务中的任何事物进行信息检索。 这里有一些例子:
- 查找相似用户:如果通过组合用户的活动、过去的购买历史记录和其他用户属性来定义一个向量来表示企业中的每个用户,那么可以找到与指定用户相似的所有用户。 例如,可以看到正在购买类似产品的用户、可能是机器人的用户,或者是潜在优质客户且应该成为数字营销目标的用户。
- 查找相似的产品或物品:通过描述、价格、销售地点等产品特征生成的向量,可以找到相似的产品来回答任意数量的问题; 例如,“我们还有哪些其他产品与此产品类似并且可能适用于相同的用例?” 或 “过去 24 小时内该地区销售了哪些产品?” (根据时间和距离)
- 查找有缺陷的物联网设备:通过向量从信号中捕获有缺陷设备的特征,向量搜索能够立即找到潜在有缺陷的设备以进行主动维护。
- 查找广告:明确定义的向量可让用户在几毫秒内以高吞吐量找到与观看者最相关或最合适的广告。
- 查找安全威胁:可以通过向量化计算机病毒二进制文件的签名或针对 Web 服务或网络设备的恶意攻击行为来识别安全威胁。