摘要:
optimizer = AdamW(model.parameters(), lr=LR, correct_bias=False)scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=WARMUP_STEPS, 阅读全文
摘要:
**全文检索(Full-text Search)**:即先建立索引,再对索引进行搜索(倒排索引)。索引是从非结构化数据中提取出之后重新组织的信息。 ![lucene的一般过程.png](https://segmentfault.com/img/remote/1460000021695249) 全文检 阅读全文
摘要:
1.最近邻检索(Nearest Neighbor Search) 最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。 k最近邻(K-Nearest Neighbor,K-NN)检 阅读全文
摘要:
一、语义匹配 1.1基于特征表示 1.1.1DSSM 1.1.2CNN-DSSM 1.1.3LSTM-DSSM 1.1.4Bert 1.2.基于交互 1.2.1ARC-ii 1.2.2MatchPyramid 1.2.3Match-SRNN 1.2.4Bert 1.3.改进方向 1.4传统语义匹配模 阅读全文
摘要:
文档搜索梳理 搜索引擎 一个基本的搜索系统大体可以分为离线挖掘和在线检索两部分,其中包含的重要模块主要有:Doc内容理解、Query理解、检索召回、排序模块等。整个检索系统的目标可以抽象为给定query,检索出最能满足用户需求的Doc 1.1离线挖掘 在离线侧,需要做一些基础的离线挖掘工作,包括Do 阅读全文
摘要:
信息检索任务关注点 query和doc中的词精准匹配是很重要的说明query和doc相关性的信号,因此统计query和doc精准匹配次数的BM25模型还是能满足召回的最低要求; 不精准匹配的话需要靠语义匹配来解决,比如 宾馆和酒店在字面上不匹配,但语义上是很相关的。 query在doc中的匹配位置不 阅读全文
摘要:
在query-doc任务中,一般在召回层返回给我们一些文档(数量级在百),我们需要再对其进行排序返回跟query最相关的doc(数量级在十),第一阶段的召回传统做法是基于布尔查询的,当一个query中有多个term时,每个词对于文档的召回的贡献度是不一样的,我们不能一视同仁地看待这些term,常用做 阅读全文
摘要:
我们知道:语义匹配可分为两大类,基于表示的和基于交互的。 基于表示的:学习 query 和 doc ( 放在推荐里就是 user 和 item ) 的 representation 表示,然后通过定义 matching score 函数。 基于交互的:这种方法是不直接学习query和doc的语义表示 阅读全文
摘要:
小萌新最近实习碰到的第一个项目就是 搜索引擎,最近无论从模型还是从工程角度都苦读了很多知识,准备整理出来 帮助自己更好地理解。 一、Relevance Matching VS Semantic Matching 首先,这两个不是等价的哦! 1、Semantic Matching主要是强调语义上的匹配 阅读全文
摘要:
恢复内容开始 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torch.nn.utils.rnn import pack_padded_seque 阅读全文