会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
不服输的小强
博客园
首页
新随笔
联系
订阅
管理
2021年1月2日
pytorch transformers finetune 疑惑总结
摘要: optimizer = AdamW(model.parameters(), lr=LR, correct_bias=False)scheduler = get_linear_schedule_with_warmup(optimizer, num_warmup_steps=WARMUP_STEPS,
阅读全文
posted @ 2021-01-02 17:25 打了鸡血的女汉子
阅读(1142)
评论(0)
推荐(0)
2020年12月23日
倒排索引
摘要: **全文检索(Full-text Search)**:即先建立索引,再对索引进行搜索(倒排索引)。索引是从非结构化数据中提取出之后重新组织的信息。  全文检
阅读全文
posted @ 2020-12-23 14:55 打了鸡血的女汉子
阅读(174)
评论(1)
推荐(1)
ANN-ANNOY总结
摘要: 1.最近邻检索(Nearest Neighbor Search) 最近邻检索就是根据数据的相似性,从数据库中寻找与目标数据最相似的项目。这种相似性通常会被量化到空间上数据之间的距离,可以认为数据在空间中的距离越近,则数据之间的相似性越高。 k最近邻(K-Nearest Neighbor,K-NN)检
阅读全文
posted @ 2020-12-23 14:51 打了鸡血的女汉子
阅读(1045)
评论(1)
推荐(1)
query-doc 匹配
摘要: 一、语义匹配 1.1基于特征表示 1.1.1DSSM 1.1.2CNN-DSSM 1.1.3LSTM-DSSM 1.1.4Bert 1.2.基于交互 1.2.1ARC-ii 1.2.2MatchPyramid 1.2.3Match-SRNN 1.2.4Bert 1.3.改进方向 1.4传统语义匹配模
阅读全文
posted @ 2020-12-23 11:49 打了鸡血的女汉子
阅读(2693)
评论(1)
推荐(1)
文档搜索梳理
摘要: 文档搜索梳理 搜索引擎 一个基本的搜索系统大体可以分为离线挖掘和在线检索两部分,其中包含的重要模块主要有:Doc内容理解、Query理解、检索召回、排序模块等。整个检索系统的目标可以抽象为给定query,检索出最能满足用户需求的Doc 1.1离线挖掘 在离线侧,需要做一些基础的离线挖掘工作,包括Do
阅读全文
posted @ 2020-12-23 11:48 打了鸡血的女汉子
阅读(500)
评论(1)
推荐(1)
2020年12月21日
读论文啦Learning to Match Using Local and Distributed Representations of Text for Web Search
摘要: 信息检索任务关注点 query和doc中的词精准匹配是很重要的说明query和doc相关性的信号,因此统计query和doc精准匹配次数的BM25模型还是能满足召回的最低要求; 不精准匹配的话需要靠语义匹配来解决,比如 宾馆和酒店在字面上不匹配,但语义上是很相关的。 query在doc中的匹配位置不
阅读全文
posted @ 2020-12-21 18:00 打了鸡血的女汉子
阅读(262)
评论(1)
推荐(1)
2020年12月19日
读论文啦!Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval
摘要: 在query-doc任务中,一般在召回层返回给我们一些文档(数量级在百),我们需要再对其进行排序返回跟query最相关的doc(数量级在十),第一阶段的召回传统做法是基于布尔查询的,当一个query中有多个term时,每个词对于文档的召回的贡献度是不一样的,我们不能一视同仁地看待这些term,常用做
阅读全文
posted @ 2020-12-19 21:37 打了鸡血的女汉子
阅读(484)
评论(2)
推荐(2)
读论文啦!相关性匹配经典论文A Deep Relevance Matching Model for Ad-hoc Retrieval
摘要: 我们知道:语义匹配可分为两大类,基于表示的和基于交互的。 基于表示的:学习 query 和 doc ( 放在推荐里就是 user 和 item ) 的 representation 表示,然后通过定义 matching score 函数。 基于交互的:这种方法是不直接学习query和doc的语义表示
阅读全文
posted @ 2020-12-19 16:29 打了鸡血的女汉子
阅读(523)
评论(2)
推荐(2)
读论文啦!Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling
摘要: 小萌新最近实习碰到的第一个项目就是 搜索引擎,最近无论从模型还是从工程角度都苦读了很多知识,准备整理出来 帮助自己更好地理解。 一、Relevance Matching VS Semantic Matching 首先,这两个不是等价的哦! 1、Semantic Matching主要是强调语义上的匹配
阅读全文
posted @ 2020-12-19 14:52 打了鸡血的女汉子
阅读(236)
评论(1)
推荐(2)
2020年12月10日
交作业 之 pytorch 使用字符级特征来增强 LSTM 词性标注器
摘要: 恢复内容开始 import torch import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torch.nn.utils.rnn import pack_padded_seque
阅读全文
posted @ 2020-12-10 11:24 打了鸡血的女汉子
阅读(448)
评论(3)
推荐(5)
下一页
公告