打了鸡血的女汉子

2021年1月2日

摘要： optimizer = AdamW(model.parameters(), lr=LR, correct_bias=False)scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=WARMUP_STEPS, 阅读全文

posted @ 2021-01-02 17:25 打了鸡血的女汉子阅读(1178) 评论(0) 推荐(0)

2020年12月23日

倒排索引

摘要： **全文检索(Full-text Search)**：即先建立索引，再对索引进行搜索（倒排索引）。索引是从非结构化数据中提取出之后重新组织的信息。 ![lucene的一般过程.png](https://segmentfault.com/img/remote/1460000021695249) 全文检阅读全文

posted @ 2020-12-23 14:55 打了鸡血的女汉子阅读(193) 评论(1) 推荐(1)

ANN-ANNOY总结

摘要： 1.最近邻检索（Nearest Neighbor Search）最近邻检索就是根据数据的相似性，从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离，可以认为数据在空间中的距离越近，则数据之间的相似性越高。 k最近邻（K-Nearest Neighbor，K-NN）检阅读全文

posted @ 2020-12-23 14:51 打了鸡血的女汉子阅读(1112) 评论(1) 推荐(1)

query-doc 匹配

摘要：一、语义匹配 1.1基于特征表示 1.1.1DSSM 1.1.2CNN-DSSM 1.1.3LSTM-DSSM 1.1.4Bert 1.2.基于交互 1.2.1ARC-ii 1.2.2MatchPyramid 1.2.3Match-SRNN 1.2.4Bert 1.3.改进方向 1.4传统语义匹配模阅读全文

posted @ 2020-12-23 11:49 打了鸡血的女汉子阅读(2845) 评论(1) 推荐(1)

文档搜索梳理

摘要：文档搜索梳理搜索引擎一个基本的搜索系统大体可以分为离线挖掘和在线检索两部分，其中包含的重要模块主要有：Doc内容理解、Query理解、检索召回、排序模块等。整个检索系统的目标可以抽象为给定query，检索出最能满足用户需求的Doc 1.1离线挖掘在离线侧，需要做一些基础的离线挖掘工作，包括Do 阅读全文

posted @ 2020-12-23 11:48 打了鸡血的女汉子阅读(521) 评论(1) 推荐(1)

2020年12月21日

读论文啦Learning to Match Using Local and Distributed Representations of Text for Web Search

摘要：信息检索任务关注点 query和doc中的词精准匹配是很重要的说明query和doc相关性的信号，因此统计query和doc精准匹配次数的BM25模型还是能满足召回的最低要求；不精准匹配的话需要靠语义匹配来解决，比如宾馆和酒店在字面上不匹配，但语义上是很相关的。 query在doc中的匹配位置不阅读全文

posted @ 2020-12-21 18:00 打了鸡血的女汉子阅读(290) 评论(1) 推荐(1)

2020年12月19日

读论文啦！Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval

摘要：在query-doc任务中，一般在召回层返回给我们一些文档(数量级在百），我们需要再对其进行排序返回跟query最相关的doc（数量级在十），第一阶段的召回传统做法是基于布尔查询的，当一个query中有多个term时，每个词对于文档的召回的贡献度是不一样的，我们不能一视同仁地看待这些term，常用做阅读全文

posted @ 2020-12-19 21:37 打了鸡血的女汉子阅读(515) 评论(2) 推荐(2)

摘要：我们知道:语义匹配可分为两大类，基于表示的和基于交互的。基于表示的：学习 query 和 doc ( 放在推荐里就是 user 和 item ) 的 representation 表示，然后通过定义 matching score 函数。基于交互的：这种方法是不直接学习query和doc的语义表示阅读全文

posted @ 2020-12-19 16:29 打了鸡血的女汉子阅读(556) 评论(2) 推荐(2)

读论文啦！Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling

摘要：小萌新最近实习碰到的第一个项目就是搜索引擎，最近无论从模型还是从工程角度都苦读了很多知识，准备整理出来帮助自己更好地理解。一、Relevance Matching VS Semantic Matching 首先，这两个不是等价的哦！ 1、Semantic Matching主要是强调语义上的匹配阅读全文

posted @ 2020-12-19 14:52 打了鸡血的女汉子阅读(275) 评论(1) 推荐(2)

2020年12月10日

交作业之 pytorch 使用字符级特征来增强 LSTM 词性标注器

摘要：恢复内容开始 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torch.nn.utils.rnn import pack_padded_seque 阅读全文

posted @ 2020-12-10 11:24 打了鸡血的女汉子阅读(477) 评论(3) 推荐(5)

不服输的小强

公告