资源整理&日记:入口(每天更新)

壹:日记

2021年05月

2021-05-06

1.深度学习中的知识蒸馏技术
2.美团搜索理解和召回
3.语言模型微调领域有哪些最新进展?一文详解最新趋势
4.SIGIR 2021 | 推荐系统相关论文分类整理
5.NLP与对比学习的巧妙融合,简单暴力效果显著!

2021-05-08

  1. 文章:
    Rethinking Search: Making Experts out of Dilettantes
    Learning Early Exit Strategies for Additive Ranking Ensembles [SIGIR2021]

2021-05-19

  • 计划:
      1. Linux命令整理完事, du, df, cp, grep等常见命令
      1. 这几天整理更新。

2021-05-28(周五)

  1. A data-driven strategy to combine word embeddings in information retrieval
  2. Integrating Semantics and Neighborhood Information with Graph-Driven Generative Models for Document Retrieval 【ACL2021 腾讯】
  3. Rethinking InfoNCE: How Many Negative Samples Do You Need?
  4. Contrastive Fine-tuning Improves Robustness for Neural Rankers
  5. Predicting Links on Wikipedia with Anchor Text Information 【sigir2021】

2021年06月

2021年07月

贰:资源贴

优秀博客/论文/网页整理与收藏、自己相关笔记整理目录
文章整理够60篇再分类进一步整理,前期主要是贴别人的文章链接,大佬们太多太强了,自己伸手党就行。
🐴: 正在看; ☀️: 已经阅读

零、自己博客

1.搜广推01-信息检索领域大佬总结
2.搜广推02-DeepMatch 模型总结[SIGIR2019 tutorial]
3.搜广推&NLP03-顶会track记录
4.搜广推04-信息检索任务&数据集&LeadBoard&评价指标

一、信息检索

1.SIGIR2020会议之文本表征、检索重排序、阅读理解论文整理 @刘聪笔记
2.
2.论文阅读笔记:文本蕴含之BiMPM @刘聪

二、预训练语言模型

1.笔记:MacBERT:MLM as correction BERT (EMNLP2020 哈工大)MacBERT 通过用其相似的单词来掩盖单词,缩小训练前和微调阶段之间差距
2.笔记:刘聪NLP-AMBERT模型:一个多粒度Tokenization的预训练语言模型 字节跳动
3.ERNIE-Gram:Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding 论文:百度ERNIE进一步N-gram改进

三、NLP

四、对比学习

五、蒸馏

六、推荐&广告

七、深度学习

八、其他

  1. 刘聪:中文摘要数据集汇总
    2.ACL2020论文整理之问题生成、自然语言推理、预训练语言模型及部分应用、QA问答系统及机器阅读理解 @刘聪

1.信息检索领域专家
2.搜广推02-DeepMatch 模型总结[SIGIR2019 tutorial]
3.搜广推&NLP03-顶会track记录
4.搜广推04-信息检索任务&数据集&LeadBoard&评价指标

资源整理: 检索式问答、Q-Doc Answer selection、OpenQA、
刘聪:中文摘要数据集汇总
笔记:MacBERT:MLM as correction BERT (EMNLP2020 哈工大)MacBERT,通过用其相似的单词来掩盖单词,缩小训练前和微调阶段之间差距
笔记:刘聪NLP-AMBERT模型:一个多粒度Tokenization的预训练语言模型 字节跳动
SIGIR2020会议之文本表征、检索重排序、阅读理解论文整理 @刘聪笔记
ERNIE-Gram:Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding 论文:百度ERNIE进一步N-gram改进
ACL2020论文整理之问题生成、自然语言推理、预训练语言模型及部分应用、QA问答系统及机器阅读理解 @刘聪
论文阅读笔记:文本蕴含之BiMPM @刘聪
论文阅读笔记:文本蕴含之ESIM @刘聪
论文阅读笔记:文本蕴含之DIIN @刘聪
文本蕴含之孪生网络(Siamese Network) @刘聪
NEZHA(哪吒)论文阅读笔记 @刘聪
阅读笔记:开放域检索问答(ORQA) @刘聪
UniLM论文阅读笔记 @刘聪
UniLM-v2论文阅读笔记 @刘聪
15. 文本匹配开山之作-DSSM论文笔记及源码阅读(类似于sampled softmax训练方式思考) @夜小白
16. NLP任务增强:通过引入外部知识库来提供额外信息 @夜小白 推荐系统/文本匹配/预训练

2021-03-12周: 资源:

  1. 深度神经网络模型蒸馏Distillation 大佬总结, 更新到2020
  2. 万字长文带你一览ICLR2020最新Transformers进展(下) ICLR2020 PLMs总结
  3. [短文本相似度算法研究 @刘][()
  4. pytorch中的损失函数总结
  5. NLP领域,你推荐哪些综述性的文章? 可以持续关注, 阿里总结
  6. 基于表征(Representation)文本匹配、信息检索、向量召回的方法总结(用于召回、或者粗排) Poly-encoder、ColBERT、pretraining-tasks.
  7. 搜索推荐召回&&粗排相关性优化最新进展—2020 同上
  8. 智能问答系统:问句预处理、检索和深度语义匹配技术 平安人寿
  9. 谈谈文本匹配和多轮检索 总结不错
  10. 深度语义匹配模型DSSM及其变体CNN-DSSM, LSTM-DSSM
  11. 搜索中的深度匹配模型 @辛俊波
    10.搜索中的深度匹配模型(下) @辛俊波
    10.推荐系统中的深度匹配模型 @辛俊波
  12. 短文本匹配有什么好的方法?
  13. 如何判断两段文本说的是「同一件事情」?
  14. 深度学习语义相似度系列:Ranking Similarity
  15. 丁香园在语义匹配任务上的探索与实践
  16. 搜索中的语义匹配技术
  17. 深度文本匹配
  18. 深度文本匹配发展总结
  19. 短文本匹配未来的研究思路是什么
    19.论文|从DSSM语义匹配到Google的双塔深度模型召回和广告场景中的双塔模型思考
    20.基于向量的深层语义相似文本召回?你需要bert和faiss
  20. 基于深度学习的文本检索&匹配算法
  21. 2020深度文本匹配最新进展:精度、速度我都要! @希小瑶
  22. 深度语义模型以及在淘宝搜索中的应用
  23. 携程实践丨深度学习在语义匹配模型中的应用
  24. 文本匹配方法系列––多语义匹配模型
  25. [NLP] 远离送命题: 问答系统中语义匹配的『杀手锏』
  26. 深度学习解决 NLP 问题:语义相似度计算
  27. 全面梳理文本相似度/匹配-附代码-深度好文-不容错过
  28. 语义匹配
  29. 医疗搜索中的Query词权重算法探索
  30. 中文语义匹配中,遇到长段落与短query比较,应该如何处理长段落呢
  31. 文本匹配入门总结
  32. 短文本匹配
  33. 文本匹配利器:从孪生网络到Sentence-BERT综述
  34. 语义文本匹配
  35. 无监督语义相似度匹配之Bert抽取文本特征实战
  36. 文本匹配有哪些方法?怎么应用?
  37. 《搜索和推荐中的深度匹配》——1.2 搜索和推荐中匹配统一性
  38. 深度自然语言处理在搜索&推荐系统的应用(引流)
  39. 《搜索和推荐中的深度匹配》——1.3 搜索匹配的挑战
  40. 搜索推荐新书-《搜索与推荐中的深度学习匹配(Deep Match)技术》免费pdf分享
  41. [阅读笔记] 基于关键字注意的深层语义匹配模型
  42. AAAI 2019 | DRCN:基于密集连接和注意力机制的语义匹配方法
  43. 电商搜索:相关性匹配
  44. [阅读笔记] 句子语义匹配模型——DRCN
  45. AAAI 2020 | 基于Transformer的对话选择语义匹配模型
  46. SIGIR 2020之DC-BERT模型:解耦问题-文档编码,提速QA-Rerank模块
  47. 教你如何动态配置词权重,检索系列文章之HDCT论文笔记
  48. 教你如何动态配置词权重,检索系列文章之DeepCT论文笔记
  49. SIGIR 2020之MarkedBERT模型:加入传统检索线索的Rerank模型
  50. MacBERT:MLM as correction BERT
  51. 【辩难】DSSM 损失函数是 Pointwise Loss 吗?
  52. Sentence-Bert论文笔记

下面系列总结: 涵盖搜索范围内很多
54. R&S[18] | SIGIR2018:深度学习匹配在搜索与推荐中的应用
54. R&S[21] | 搜索系统中涉及的算法问题 oppo算法工程师,总结了很多搜索算法系列的文章
56. R&S[19] | 学习排序入门级概述
57.ML&DEV[6] | 算法工程师Linux必知必会​
58. NLP.TM[18] | 搜索中的命名实体识别
59. NLP.TM[20] | 词权重问题
60. 学习周报20191109 | LM,term weighting
61. NLP.TM[22] | 如何修正NLP问题的bad case
62. 学习周报20191124 | BART,紧密度分析
63. R&S[22] | 搜索系统中的召回
64. R&S[25] | 搜索中的意图识别
65. R&S[24] | 浅谈Query理解和分析
66. R&S[26] | 搜索领域算法需要掌握的知识
67.

2021-05-06周资源:
1.
资源整理:
★★★★ 2020三篇语义匹配笔记:基于表征(Representation)文本匹配、信息检索、向量召回的方法总结(用于召回、或者粗排) - 知乎 (zhihu.com) ColBERT、Poly-Encoder、Pre training Tasks for Embedding-based Large-scale Retrieval,近期三篇比较著名的模型。
还是上述三篇文章笔记: 搜索推荐召回&&粗排相关性优化最新进展—2020 - 知乎 (zhihu.com)
SIGIR2020相关论文整理:SIGIR会议之文本表征、检索重排序、阅读理解论文整理 - 知乎 (zhihu.com)
论文笔记: SIGIR 2020之DC-BERT模型:解耦问题-文档编码,提速QA-Rerank模块 - 知乎 (zhihu.com) 【√】
《搜索与推荐中的深度学习匹配》之搜索篇 @后青春期的工程师 sigir tutorial 【√】
搜索中的深度匹配模型(上) @ 辛俊波 SIGIR tutorial 【√】
搜索中的深度匹配模型(下) @辛俊波 SIGIR tutorial 【√】
A Deep Look into Neural Ranking Models for Information Retrieval 2019-03 综述 (chengxueqi)
BERT在语义相似度计算中的应用(一) DC-BERT、Poly-Encoders、ColBERT

# 叁笔记列表

一、未分类

笔记目录:
DC-BERT、Poly-Encoder、ColBERT 三者都是 representation 和 interaction 的结合,三者类似。
IR任务提升:
1.pretraining for IR
2.交互+表征结合
3.
Poly-Encoder(ICLR2020 facebook): Poly-encoders: architectures and pre-training strategies for fast and accurate multi-sentence scoring
简述: 匹配任务中结合表征学习(上线推理速度快)和交互学习(性能好)的优点,做一个折中。
贡献1:提出poly-encoder,并对poly-encoder做了详细的实验。
贡献2:验证不同预训练策略对于下游任务影响。
笔记:Poly-Encoder(ICLR2020) - 知乎 (zhihu.com) 搜索推荐召回&&粗排相关性优化最新进展—2020
原文链接:1905.01969.pdf (arxiv.org)
代码链接:
非官方实现torch: chijames/Poly-Encoder (github.com) 结果差距很大
非官方实现torch: sfzhou/PolyEncoder 结果差距很大
非官方实现torch:llStringll/Poly-encoders
其他: 看了文章、笔记

  1. (SIGIR2020-Stanford)ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT
    简述: 文本匹配在表征层后接一个 MaxSim 进行Query-Doc交互。
    贡献1:提出ColBERT,在Re-Ranking 和 Retrieval 任务中做了很充分实验。
    贡献2: query编码几种设置策略对比,计算相似度几种策略进行对比。
    贡献3:时间复杂度、索引吞吐量、内存占用等方面不同策略进行详细的对比。
    笔记: ColBERT(SIGIR2020) - 知乎 (zhihu.com) 搜索推荐召回&&粗排相关性优化最新进展—2020
    原文链接:https://arxiv.org/pdf/2004.12832.pdf
    代码链接:stanford-futuredata/ColBERT: ColBERT: Contextualized Late Interaction over BERT (SIGIR'20 paper) (github.com)
    其他: 看了文章、笔记

  2. (ICLR2020-Google)Pre_Training Tasks for Embedding-Based Large Scale Retrieval

简述: 设计三个 Pre_train task 解决信息检索中Query-Doc匹配问题。
任务1: ICT(Inverse Close Task) 同一段落中局部窗口两句话之间的关联。没太懂
任务2: BFS(Body First Selection) Doc中全局一致语义信息,从第一段随机抽Q, D是页面中随机选择的一个段落。
任务3: WLP(Wiki Link Prediction): 两个Doc之间的语义关联,Q从wikipage第一段中随机选择,d是另外一个页面中的passage,但是还有到Q的超链接。
笔记:https://zhuanlan.zhihu.com/p/140323216 搜索推荐召回&&粗排相关性优化最新进展—2020
原文链接:https://arxiv.org/pdf/2002.03932.pdf
代码链接: 暂无...
其他:看了笔记

  1. MarkedBERT: Integrating Traditional IR Cues in Pre-trained Language Models for Passage Retrieval (sigir2020 short paper)
    简述:预训练语言模型融入传统检索线索微调进行段落检索任务。
    贡献1: 提出MarkedBERT, 通过Mark token标记 Q-D Exact-Term Matching.
    贡献2: MS数据集ReRank 任务 MRR@10 性能好于 BERT(直观解释性还不懂)
    笔记:SIGIR 2020之MarkedBERT模型:加入传统检索线索的Rerank模型 - 知乎 (zhihu.com) 参考大佬笔记,感谢 SIGIR2020-MarkedBERT(short paper) - 知乎 (zhihu.com)
    原文链接:MarkedBERT: Integrating Traditional IR Cues in Pre-trained Language Models for Passage Retrieval (archives-ouvertes.fr)
    代码: BOUALILILila/markers_bert (github.com)
    其他: 看了文章、笔记

  2. DC-BERT:Decoupling Question and Document for Efficient Contextual Encoding (SIGIR2020)
    简述: 开放域QA,针对BERT线上推理慢问题,提出DC-BERT模型, 双塔+交互架构
    贡献1: BC-BERT: Dual-BERT双塔)、Transformer交互、打分
    贡献2: 典型的 交互式+表征式 检索。 对于Transformer层数进行了对比
    贡献3: SQuAD open、Natural Questions Open 性能+速度优势。
    笔记:DC-BERT模型:解耦问题-文档编码,提速QA-Rerank模块 (还是大佬笔记,膜)
    原文链接:https://arxiv.org/pdf/2002.12591.pdf
    代码链接:上述笔记评论区...
    其他:

  3. BERT-QE(EMNLP2020): Contextualized Query Expansion for Document Re-ranking
    简述: 基于上下文化Query扩展的文档重排序。
    贡献1:原始Query-Doc匹配时候会因为表达格式差异进行PDF(伪相关性反馈)进行query 扩展,进一步进行搜索结果排序,但是query扩展又会引入不相关信息(这点不是完全理解)
    ,提出了 BERT-QE通过三阶段重新进行 Retrieve & ReRank
    文档重新排序三阶段
    阶段1:BM25粗排结果,使用BERT微调对文档重新排序,获取高排名的文档作为PRF文档。
    阶段2: 阶段1的PDF文档,滑动窗口分解味固定长度文本快,并评估文本快和Query相关性。
    阶段3: 阶段2选取的文本块和原始文本Query一起和Doc做相关性匹配。
    文章三阶段目标是 解决query-expansion 中的噪音问题。 实际使用中,可以对Doc每个句子计算Embbeding, 句子层级先匹配,然后进一步做扩展?
    笔记:还是大佬笔记,写的太好BERT-QE: 基于上下文化查询扩展的文档ReRank - 知乎 (zhihu.com) 后期自己补笔记
    原文链接: 2009.07258.pdf (arxiv.org)
    代码链接:https://github.com/zh-zheng/BERT-QE
    其他:看了笔记

  4. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks(emnlp2019) 引用400多,太夸张了
    简述: 孪生网络编码器变成BERT编码,并探索了 CLS向量、平均池化、最大值池化三种策略的比较。
    贡献1: sentBERT 是BERT工业界使用的一次探索。 STS数据集
    引用已经arXiv400, 大家都很关注...
    文章分别尝试三种优化目标/任务: softmax分类、回归、Triplet Objective Function
    实验确实很充实...
    笔记:Sentence-Bert论文笔记 - 知乎 (zhihu.com) 大佬太猛了,讨论区也很火热, 自己不再重新写了
    原文链接: Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
    代码链接:https://github.com/UKPLab/
    其他:看了几个笔记,文章没看完整

  5. DeepCT: Context-Aware Sentence/Passage Term Importance Estimation For First Stage Retrieval
    DeepCT: Deep Contextualized Term Weighting framework, 词权重分配任务
    简介: 通过学习赋予 query, doc中相同词语不同的权重
    笔记: 动态配置词权重,检索系列文章之DeepCT论文笔记 (大佬笔记)
    原文链接: https://arxiv.org/abs/1910.10687
    代码链接:https://github.com/AdeDZY/DeepCT
    其他:看了笔记

  6. HDCT:Context-Aware Document Term Weighting for Ad-Hoc Search (WWW2020)
    简介: DeepCT的进阶版, 解决长文档问题,提出了多种label构建的方式。
    笔记: 动态配置词权重,检索系列文章之HDCT论文笔记 (大佬笔记)
    原文链接:Context-Aware Document Term Weighting for Ad-Hoc Search (acm.org)
    代码链接: https://github.com/AdeDZY/DeepCT/tree/master/HDCT
    其他: 没细看,看了笔记

  7. ABNIRML: Analyzing the Behavior of Neural IR Models (AI2, 2020-11)
    简介: 分析当下神经检索模型
    分析为什么有效?
    分析改进为什么有效?
    当下模型的缺点:偏置
    笔记:
    原文链接:https://arxiv.org/pdf/2011.00696.pdf
    代码链接
    其他: 后续看,关注现有模型问题,怎么发掘模型缺点? 后续自己的模型可以通过这个框架评价,然后说性能好

  8. Pretrained Transformers for Text Ranking: BERT and Beyond (2020-10)
    简介: 综述基于预训练的文本排序模型,主要关注 长文档、性能vs速度
    笔记:
    原文链接: https://arxiv.org/pdf/2010.06467.pdf
    代码链接
    其他: 未读

  9. ERNIE-DOC: The Retrospective Long-Document Modeling Transformer (baidu 2020-12)

简介: 一种基于递归变换的文档级语言预训练模型ERNIE-DOC
retrospective feed mechanism and the enhanced recurrence mechanism
笔记:
原文链接:https://arxiv.org/pdf/2012.15688.pdf
代码链接
其他: 未读

  1. Composite Re-Ranking for Efficient Document Search with BERT (2021-03-11 )
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2103.06499
    代码链接
    其他: 文章未更新

  2. Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks (2021-01)
    简介: CNN增强ALBERT 等在 STS任务中的表现。
    笔记: https://arxiv.org/abs/2101.10642
    原文链接
    代码链接
    其他

  3. Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder(微软 2021-02 )

简介: 利用Weak Decoder增强预训练Encoder,
在Web Search(MS MARCO)上ReRank: MRR@10 0.334 Retrieval: MRR@10 0.339
笔记:
原文链接: https://arxiv.org/pdf/2102.09206.pdf
代码链接
其他: 有空看

  1. A Primer in BERTology: What we know about how BERT works (2020-11,TACL)
    简介: 探索BERT 现有研究进展...
    笔记:
    原文链接
    代码链接
    其他: 有空看

  2. PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval (wsdm2021, chengxueqi )
    简介: ROP(Representative Words Prediction)代表词预测+MLM 任务做 预训练
    笔记:
    原文链接: https://arxiv.org/pdf/2010.10137.pdf
    代码链接: https://github.com/Albert-Ma/PROP
    其他: 简单看了ROP任务,最后结果。 ROP任务对IR作用感觉没解释清楚, 以及还有什么任务适用于IR?

  3. ★A Linguistic Study on Relevance Modeling in Information Retrieval (www2021 cxq)
    简介: 这篇文章写的实在是太好了.... 写作+贡献+思路+指导意义
    笔记:
    原文链接
    代码链接
    其他

  4. Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network
    说明: ACL2018 百度 检索式多轮对话
    简介: representation-matching- aggregation框架,
    创新: attention机制的有效性
    笔记: Deep Attention Matching Network论文解读
    原文链接:
    代码链接
    其他

  5. Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling
    说明: EMNLP2019 Facebook
    简介: 提出了HCAN (Hybrid Co-Attention Network) 将相关性匹配和语义匹配结合起来
    笔记: 通过HCAN将相关性匹配和语义匹配融合起来
    原文链接:https://cs.uwaterloo.ca/~jimmylin/publications/Rao_etal_EMNLP2019.pdf
    代码链接
    其他

  6. keyword-attentive deep semantic matching (腾讯 2020-02)
    简介: 基于关键字的深度语义匹配模型
    笔记: [阅读笔记] 基于关键字注意的深层语义匹配模型
    原文链接:https://arxiv.org/pdf/2003.11516.pdf
    代码链接
    其他

  7. IMN: Interactive Matching Network for Multi-Turn Response Selection in Retrieval-Based Chatbots
    简介: cikm 2019 检索式响应回复
    笔记: IMN: Interactive Matching Network
    原文链接:https://arxiv.org/abs/1901.01824?context=cs.CL
    代码链接
    其他

  8. DRCN: Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
    说明: AAAI 2019 句子匹配任务
    简介:
    笔记: 论文笔记——Semantic Sentence Matching with DRCN
    原文链接: https://arxiv.org/abs/1805.11360
    代码链接
    其他

  9. Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching
    说明: WWW2021 chengxueqi 长文本匹配
    简介:
    笔记: 毕设需要做长文本之间的匹配,没有nlp基础,有什么推荐的论文及代码吗? - 乐清的回答 - 知乎 https://www.zhihu.com/question/453641003/answer/1825470481
    原文链接: https://arxiv.org/abs/2101.06423
    代码链接
    其他

  10. Matching Algorithms: Fundamentals, Applications and Challenges
    说明: 2021-03-16
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2103.03770
    代码链接
    其他

  11. Learning To Retrieve: How to Train a Dense Retrieval Model Effectively and Efficiently
    说明:
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  12. Local Self-Attention over Long Text for Efficient Document Retrieval
    说明: SIGIR 2020 short paper
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2005.04908
    代码链接
    其他

  13. Long Document Ranking with Query-Directed Sparse Transformer
    说明: emnlp2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  14. An In-depth Analysis of Passage-Level Label Transfer for Contextual Document Ranking
    说明: 20210-03-30
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2103.16669
    代码链接
    其他

  15. End-to-End Contextualized Document Indexing and Retrieval with Neural Networks
    说明: SIGIR2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  16. A Graph-based Relevance Matching Model for Ad-hoc Retrieval
    To retrieve more relevant, appropriate and useful documents given a query, finding clues about that query through the text is crucial. Recent deep learning models regard the task as a term-level matching problem, which seeks exact or similar query patterns in the document. However, we argue that they are inherently based on local interactions and do not generalise to ubiquitous, non-consecutive contextual relationships. In this work, we propose a novel relevance matching model based on graph neural networks to leverage the document-level word relationships for ad-hoc retrieval. In addition to the local interactions, we explicitly incorporate all contexts of a term through the graph-of-word text format. Matching patterns can be revealed accordingly to provide a more accurate relevance score. Our approach significantly outperforms strong baselines on two ad-hoc benchmarks. We also experimentally compare our model with BERT and show our advantages on long documents.
    说明: AAAI 2021
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2101.11873
    代码链接
    其他

  17. Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval
    The ad-hoc retrieval task is to rank related documents given a query and a document collection. A series of deep learning based approaches have been proposed to solve such problem and gained lots of attention. However, we argue that they are inherently based on local word sequences, ignoring the subtle long-distance document-level word relationships. To solve the problem, we explicitly model the document-level word relationship through the graph structure, capturing the subtle information via graph neural networks. In addition, due to the complexity and scale of the document collections, it is considerable to explore the different grain-sized hierarchical matching signals at a more general level. Therefore, we propose a Graph-based Hierarchical Relevance Matching model (GHRM) for ad-hoc retrieval, by which we can capture the subtle and general hierarchical matching signals simultaneously. We validate the effects of GHRM over two representative ad-hoc retrieval benchmarks, the comprehensive experiments and results demonstrate its superiority over state-of-the-art methods.
    说明: WWW2021
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2102.11127
    代码链接
    其他

  18. Conformer-Kernel with Query Term Independence for Document Retrieval
    The Transformer-Kernel (TK) model has demonstrated strong reranking performance on the TREC Deep Learning benchmark---and can be considered to be an efficient (but slightly less effective) alternative to BERT-based ranking models. In this work, we extend the TK architecture to the full retrieval setting by incorporating the query term independence assumption. Furthermore, to reduce the memory complexity of the Transformer layers with respect to the input sequence length, we propose a new Conformer layer. We show that the Conformer's GPU memory requirement scales linearly with input sequence length, making it a more viable option when ranking long documents. Finally, we demonstrate that incorporating explicit term matching signal into the model can be particularly useful in the full retrieval setting. We present preliminary results from our work in this paper.
    说明:2020-06-20
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2007.10434
    代码链接
    其他

  19. A Systematic Evaluation of Transfer Learning and Pseudo-labeling with BERT-based Ranking Models
    说明: 2021-03
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2103.03335
    代码链接
    其他

  20. Distilling Dense Representations for Ranking using Tightly-Coupled Teachers
    We present an approach to ranking with dense representations that applies knowledge distillation to improve the recently proposed late-interaction ColBERT model. Specifically, we distill the knowledge from ColBERT's expressive MaxSim operator for computing relevance scores into a simple dot product, thus enabling single-step ANN search. Our key insight is that during distillation, tight coupling between the teacher model and the student model enables more flexible distillation strategies and yields better learned representations. We empirically show that our approach improves query latency and greatly reduces the onerous storage requirements of ColBERT, while only making modest sacrifices in terms of effectiveness. By combining our dense representations with sparse representations derived from document expansion, we are able to approach the effectiveness of a standard cross-encoder reranker using BERT that is orders of magnitude slower.
    说明: 2020-10-22
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2010.11386
    代码链接
    其他

  21. The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models
    说明: 2021-01-14
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2101.05667
    代码链接
    其他

  22. Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation
    说明: 2021-01-22
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2010.02666
    代码链接
    其他

  23. Longformer for MS MARCO Document Re-ranking Task
    说明: 2020-09-20
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2009.09392
    代码链接
    其他

  24. ORCAS: 18 Million Clicked Query-Document Pairs for Analyzing Search
    说明: 2020-08
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2006.05324
    代码链接
    其他

  25. QueryBlazer: Efficient Query Autocompletion Framework WSDM2021
    说明:
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  26. MIMICS: A Large-Scale Data Collection for Search Clarification
    说明: 2020-06
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2006.10174
    代码链接
    其他

  27. Neural Methods for Effective, Efficient, and Exposure-Aware Information Retrieval
    

说明: 2021-03
简介:
笔记:
原文链接: https://arxiv.org/abs/2012.11685
代码链接
其他

  1. Listwise Learning to Rank by Exploring Unique Ratings
    说明: 2020-01
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2001.01828
    代码链接
    其他

  2. Selective Weak Supervision for Neural Information Retrieval
    说明: WWW2020
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2001.10382
    代码链接
    其他

  3. OpenMatch: An Open-Source Package for Information Retrieval
    说明: 2021-02 清华
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2102.00166
    代码链接
    其他

  4. Relevance-guided Supervision for OpenQA with ColBERT
    说明: 2020-07
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2007.00814
    代码链接
    其他

  5. Training Curricula for Open Domain Answer Re-Ranking
    

说明: SIGIR 2020
简介:
笔记:
原文链接: https://arxiv.org/abs/2004.14269
代码链接
其他

  1. Beyond Relevance: Trustworthy Answer Selection via Consensus Verification
    说明: WSDM2021 chengxueqi
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  2. Distant Supervision in BERT-based Adhoc Document Retrieval
    说明: CIKM 2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  3. Investigating Reading Behavior in Fine-grained Relevance Judgment
    说明: sigir2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  4. Investigating the case of weak baselines in Ad-hoc Retrieval and Question Answering
    说明: 2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  5. Leveraging Passage-level Cumulative Gain for Document Ranking
    说明: WWW2021
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  6. Information retrieval: a view from the Chinese IR community
    说明: 2021 chengxueqi 综述
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  7. Topic-enhanced knowledge-aware retrieval model for diverse relevance estimation
    说明: 2021
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  8. A Pseudo-relevance feedback framework combining relevance matching and semantic matching for information retrieval
    说明: 2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  9. Ad-hoc Document Retrieval using Weak-Supervision with BERT and GPT2
    说明: EMNLP2020
    简介:
    笔记:
    原文链接:Ad hoc Document Retrieval using Weak Supervision with BERT and GPT2 - AMiner
    代码链接
    其他

  10. An Analysis of BERT in Document Ranking
    说明: 2020 马少平
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  11. Beyond 512 Tokens: Siamese Multi-depth Transformer-based Hierarchical Encoder for Long-Form Document Matching
    说明: CIKM2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  12. QueryBlazer: Efficient Query Autocompletion Framework
    

说明: WWW2021
简介:
笔记:
原文链接:
代码链接
其他

  1. RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
    说明: 2020-10
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2010.08191
    代码链接
    其他

  2. CoRT: Complementary Rankings from Transformers
    说明: 召回检索速度更快 2020-10
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2010.10252
    代码链接
    其他

  3. DiPair: Fast and Accurate Distillation for Trillion-Scale Text Matching and Pair Modeling
    说明: EMNLP2020 检索蒸馏
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  4. Beyond Probability Ranking Principle: Modeling the Dependencies among Documents
    说明: WSDM 2021
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  5. An Attention-based Deep Relevance Model for Few-shot Document Filtering
    说明: 2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  6. An end-to-end pseudo relevance feedback framework for neural document retrieval
    说明: 2019
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  7. IART: Intent-aware Response Ranking with Transformers in Information-seeking Conversation Systems
    说明: WWW2020
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2002.00571
    代码链接
    其他

  8. Learning Better Representations for Neural Information Retrieval with Graph Information
    说明: CIKM2020
    简介:
    笔记:
    原文链接:
    代码链接
    其他

  9. Fine-Grained Relevance Annotations for Multi-Task Document Ranking and Question Answering
    说明: CIKM2020
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2008.05363
    代码链接
    其他

  10. Improving Efficient Neural Ranking Models with Cross-Architecture Knowledge Distillation
    说明: 2021-01
    简介:
    笔记:
    原文链接: https://arxiv.org/abs/2010.02666
    代码链接
    其他

说明:
简介:
笔记:
原文链接:
代码链接
其他
19.
说明:
简介:
笔记:
原文链接:
代码链接
其他
Ad-hoc Document Retrieval using Weak-Supervision with BERT and GPT2 EMNLP2020

论文列表:

  1. OpenQA综述: Retrieving and Reading : A Comprehensive Survey on Open-domain Question Answering (AI2 2021-01, 关注Retrieval部分) 【未读】

文本匹配:

检索:

其他:
13. ANN Negative Contrastive Learning for Dense Text Retrieval (微软 2020-10)
简介:
笔记: 对比学习论文笔记2
原文链接: https://arxiv.org/pdf/2007.00808.pdf
代码链接
其他
14. ANN相关资源:
一文入门Facebook开源向量检索框架Faiss
Graph Search Engine: A Deeper Dive 实值向量搜索引擎进展
Search Engine For AI:高维数据检索工业级解决方案
一文纵览KNN(ANN)向量检索
高维空间最近邻逼近搜索算法评测
语义索引(向量检索)的几类经典方法 @后青春期的工程师

数据集 & Leadboard & 评价指标

ECIR、TOIS、AIRS、sigkdd、TKDE
wsdm\www\cikm\sigir\kdd、

会议论文整理

按照Track/Topic 整理资源

posted @ 2021-05-06 13:07  自私的人  阅读(1454)  评论(0编辑  收藏  举报