提示词增强论文汇总

1. 24S_ConvGQR: Generative Query Reformulation for Conversational Search

摘要：在会话搜索中，用户当前对话轮次的真实搜索意图依赖于之前的对话历史。从整个对话上下文中确定一个好的搜索查询是具有挑战性的。为了避免对查询编码器进行昂贵的重新训练，大多数现有方法尝试学习一个重写模型，通过模仿手动查询重写来去上下文化当前查询。然而，手动重写的查询并不总是最佳的搜索查询。因此，在它们的基础上训练一个重写模型会导致次优的查询。另一个增强搜索查询的有用信息是问题的潜在答案。在本文中，我们提出了ConvGQR，一个新的框架，基于生成预训练语言模型（PLMs），一个用于查询重写，另一个用于生成潜在答案，来重新制定会话查询。通过结合两者，ConvGQR可以产生更好的搜索查询。此外，为了将查询重写与检索任务相关联，我们提出了一种知识注入机制来优化查询重写和检索。在四个会话搜索数据集上的广泛实验证明了ConvGQR的有效性。

URL https://arxiv.org/pdf/2305.15645
Github https://github.com/fengranMark/ConvGQR

2. 23BS_On the Robustness of Question Rewriting Systems to Questions of Varing Hardness

摘要：在会话式问答（CQA）中，上下文相关的查询重写（QR）任务旨在将依赖上下文的问题重写为等价的独立问题，以得到相同的答案。在本文中，我们关注的是QR系统对于难度不同的问题的鲁棒性。由于缺乏基于重写难度分类的问题，我们首先提出了一种启发式方法，通过测量问题与其重写之间的差异来自动将问题分类为不同难度的子集。为了找出是什么使问题在重写时变得困难或容易，我们随后进行了人工评估，以标注问题的重写难度。最后，为了增强QR系统对不同难度问题的鲁棒性，我们提出了一个新的QR学习框架，该框架首先独立地在每个难度水平的问题子集上训练QR模型，然后将这些QR模型合并为一个联合模型进行推理。在两个数据集上的实验结果表明，我们的框架相比基线提高了整体性能。

URL https://arxiv.org/pdf/2311.06807
Github https://github. com/nusnlp/DiffQRe

3. 23B_Zero-shot Query Reformulation for Conversational Search

摘要：随着语音助手的受欢迎程度不断增加，会话搜索在信息检索领域受到了越来越多的关注。然而，会话搜索中的数据稀疏性问题显著地阻碍了监督式会话搜索方法的进展。因此，研究人员开始更多地关注零样本会话搜索方法。尽管如此，现有的零样本方法面临三个主要限制：它们不是普遍适用于所有检索器，它们的有效性缺乏足够的可解释性，并且在解决因省略而造成的常见会话歧义方面存在困难。为了解决这些限制，我们引入了一个新颖的零样本查询重构（ZeQR）框架，该框架基于之前的对话上下文重构查询，而无需会话搜索数据的监督。具体来说，我们的框架利用为机器阅读理解任务设计的语言表达模型，明确解决原始查询中的两种常见歧义：指代和省略。与现有的零样本方法相比，我们的方法普遍适用于任何检索器，无需额外的适应或索引。它还提供了更大的可解释性，并有效地增强了查询意图的理解，因为歧义被明确且主动地解决。通过在四个TREC会话数据集上的广泛实验，我们证明了我们方法的有效性，超越了最先进的基线。

URL https://arxiv.org/pdf/2307.09384

4. 23S_Enhancing Conversational Search Large Language Model-Aided Informative Query Rewriting

摘要：查询重写在提升会话搜索方面发挥着至关重要的作用，它通过将依赖上下文的用户查询转换为独立形式。现有的方法主要利用人工重写的查询作为标签来训练查询重写模型。然而，人工重写可能缺乏最佳检索性能所需的足够信息。为了克服这一限制，我们提议利用大型语言模型（LLMs）作为查询重写器，通过精心设计的指令生成信息丰富的查询重写。我们定义了四个对良好形成的重写至关重要的属性，并将它们全部纳入指令中。此外，我们引入了LLMs在初始查询重写可用时的重写编辑者角色，形成了一个“先重写再编辑”的过程。此外，我们提出了将LLMs的重写能力蒸馏到更小的模型中，以减少重写延迟。我们在QReCC数据集上的实验评估表明，与人工重写相比，信息丰富的查询重写可以显著提高检索性能，特别是与稀疏检索器配合使用时。

URL https://arxiv.org/pdf/2310.09716

Github https://github. com/smartyfh/InfoCQR

5. 21B_ Question Rewriting for Conversational Question Answering

摘要：对话式问题回答（QA）需要正确地在先前对话轮次的上下文中解释问题。我们通过将对话式QA任务分解为问题重写和问题回答子任务来解决它。问题重写（QR）子任务专门设计用来重新表述依赖于对话上下文的模糊问题，将其转化为可以在对话上下文之外正确理解的明确问题。我们引入了一种对话式QA架构，它在TREC CAsT 2019段落检索数据集上设立了新的最高标准。此外，我们展示了相同的QR模型在QuAC数据集上提高了QA性能，特别是在段落检索之后的QA下一步——答案跨度提取方面。我们的评估结果表明，我们提出的QR模型在两个数据集上都达到了接近人类水平的性能，并且在端到端对话式QA任务上的性能差距主要归因于QA中的错误。

URL https://arxiv.org/pdf/2004.14652

6. 21A_CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning

摘要：与标准检索任务相比，对话式问答（CQA）在理解当前用户问题时带来了新的挑战，因为每个问题都需要在对话上下文中进行解释。此外，重新训练原本为非对话查询开发的成熟检索器（如搜索引擎）可能会很昂贵。为了便于使用，我们开发了一个查询重写模型CONQRR，它可以将对话上下文中的对话式问题重写为独立问题。它使用一种新颖的奖励函数进行训练，直接通过强化学习优化检索，并可以适应任何现成的检索器。CONQRR在包含来自三个不同来源的对话的最新开放领域CQA数据集上取得了最先进的结果，并且对于两种不同的现成检索器都是有效的。我们广泛的分析还显示了CONQRR对跨领域对话以及零查询重写监督的鲁棒性。

URL https://arxiv.org/pdf/2112.08558

7. 24A_RaFe Ranking Feedback Improves Query Rewriting for RAG

摘要：随着大型语言模型（LLMs）和检索增强生成（RAG）技术的发展，查询改写已被广泛地整合到RAG系统中，用于像开放域问答（open-domain QA）这样的下游任务。许多研究尝试使用强化学习的小型模型，而不是成本较高的LLMs，来改进查询改写。然而，当前方法需要注释（例如，标记相关的文档或下游答案）或为反馈预设计的奖励，这些方法缺乏泛化能力，并且未能利用针对查询改写的信号。在本文中，我们提出了RaFe，一个无需注释的查询改写模型训练框架。通过利用公开可用的重排器，RaFe提供了与改写目标非常契合的反馈。实验结果表明，RaFe能够获得比基线更好的性能。

URL https://arxiv.org/pdf/2405.14431

8. 24A_Ask Optimal Questions: Aligning Large Language Models with Retriever’s Preference in Conversational Search

摘要：对话式搜索与单轮检索任务不同，它需要在对话上下文中理解当前问题。常见的重写然后检索的方法旨在将问题去上下文化，使其对现成的检索器自给自足，但大多数现有方法由于有限的能力去整合检索结果中的信号，因此产生了次优的查询重写。为了克服这个限制，我们提出了一个新颖的框架RETPO（检索器偏好优化），旨在优化语言模型（LM），以便根据目标检索系统的偏好重新制定搜索查询。该过程首先提示一个大型LM产生各种潜在的重写，然后收集这些重写的检索性能作为检索器的偏好。通过这个过程，我们构建了一个大规模的数据集，称为RF COLLECTION，包含超过410K个查询重写在12K对话中的检索器反馈。此外，我们使用这个数据集微调一个较小的LM，使其与检索器的偏好保持一致。最终的模型在两个最近的对话式搜索基准测试中实现了最先进的性能，显著超过了包括GPT-3.5在内的现有基线。

URL https://arxiv.org/pdf/2402.11827

9. 22AS_ Integrating Question Rewriting in Conversational Question Answering: A Reinforcement Learning Approach

AS_240830_22_Can Question Rewriting Help Conversational Question Answering

摘要：对话历史中的依赖关系解析是会话型问答（CQA）研究中的主要障碍之一。会话问题重写（QR）任务已被证明通过将问题重构为自包含形式来解决这个问题是有效的。然而，QR数据集有限，现有方法往往依赖于每个CQA数据集都有相应的标记QR数据集的假设。本文提出了一种强化学习方法，它在没有相应标记的QR数据集的情况下整合了QR和CQA任务。我们基于从CQA获得的奖励信号来训练QR模型，实验结果表明，我们的方法可以带来比流水线方法更好的改进。

URL https://aclanthology.org/2022.acl-srw.6.pdf

https://arxiv.org/pdf/2204.06239

Github https://github. com/HLTCHKUST/cqr4cqa

10. AS_240905_20_Few-Shot Generative Conversational Query Rewriting Approach

摘要：对话查询改写的目标是将简洁的对话查询重构为一个完全指定的、与上下文无关的查询，以便现有的信息检索系统能够有效处理。本文提出了一种少样本生成方法来进行对话查询改写。我们开发了两种方法，一种基于规则，另一种基于自监督学习，使用大量的即席搜索会话生成弱监督数据，并对GPT-2进行微调以重写对话查询。在TREC对话辅助赛道上，我们弱监督的GPT-2改写器将最先进的排名准确性提高了12%，仅使用了非常有限的手动查询改写。在零样本学习设置中，改写器仍然给出了与以前最先进的系统相当的结果。我们的分析揭示了GPT-2有效地掌握了任务语法，并学会了捕捉上下文依赖性，即使是涉及群体引用和长轮次依赖性的困难案例也是如此。

URL https://arxiv.org/pdf/2006.05009

Github https://github.com/thunlp/ConversationQueryRewriter

11. B_240910_20__Conversational Question Reformulation via Sequence-to-Sequence Architectures and Pretrained Language Models

摘要：这篇论文提出了一项关于对话问题改写（CQR）的经验性研究，使用了序列到序列架构和预训练语言模型（PLMs）。我们利用PLMs来解决在CQR任务中常见的目标，即最大似然估计中强烈的标记到标记独立性假设。在面向任务的对话系统的CQR基准测试中，我们在最近引入的CANARD数据集上评估了微调的PLMs，作为领域内任务，并使用TREC 2019 CAsT Track的数据作为领域外任务来验证模型。我们检验了具有不同参数数量的各种架构，展示了最新的文本到文本转换器（T5）在参数更少的情况下，在CANARD和CAsT上都取得了最佳结果，与类似的变换器架构相比。

URL https://arxiv.org/pdf/2004.01909

12. BS_240910_21_Generation-augmented retrieval for open-domain question answering

摘要：我们提出了一种名为生成增强检索（GAR）的方法，用于回答开放域问题。这种方法通过对文本的生成来扩充查询，这些文本是通过对相关上下文的启发式发现而产生的，而不需要外部资源作为监督。我们证明了，通过生成的上下文可以大幅丰富查询的语义，而且结合了稀疏表示（例如BM25）的GAR在性能上可以与最先进的密集检索方法相媲美，甚至更优，比如DPR（Karpukhin et al., 2020）。我们展示了为查询生成多样化的上下文是非常有益的，因为将这些上下文的结果融合起来可以持续地提高检索的准确性。此外，由于稀疏和密集表示通常是互补的，所以GAR可以很容易地与DPR结合起来，以实现更好的性能。当配备了提取式阅读器后，GAR在Natural Questions和TriviaQA数据集上实现了最先进的性能，并且在使用相同的生成型阅读器时，它始终优于其他检索方法。

URL https://arxiv.org/pdf/2009.08553

Github https: //github.com/morningmoni/GAR

13. A_240914_23_Dialogue Rewriting via Skeleton-Guided Generation

摘要: 对话重写的目标是将多轮、依赖上下文的对话转换成结构良好的、独立于上下文的文本，以适应大多数自然语言处理（NLP）系统。以前的对话重写基准测试和系统都假设要重写的是流畅且有信息量的语句。不幸的是，现实世界系统中的对话语句经常充满噪声，并伴随着各种错误，这可能使它们几乎没有任何信息量。在本文中，我们首先介绍了一个新的基准测试——现实世界对话重写语料库（RealDia），用来评估当前对话重写系统如何处理现实世界中嘈杂且无信息量的对话语句。RealDia包含了来自真实场景的带注释的多轮对话，这些对话包含了自动语音识别（ASR）错误、拼写错误、冗余和其他之前对话重写基准测试所忽略的噪声。我们展示了以前的对话重写方法在解决RealDia问题上既不有效也不数据高效。然后本文提出了一个名为骨架引导重写器（Skeleton-Guided Rewriter，SGR）的模型，它可以通过骨架引导的生成范式来解决对话重写任务。实验表明，RealDia是一个对现实世界对话重写更具挑战性的基准测试，而SGR能够有效地解决这一任务，并在很大程度上超越了以往的方法。

URL https://ojs.aaai.org/index.php/AAAI/article/download/26619/26391

14. BS_240913_24_History-Aware Conversational Dense Retrieval

摘要：会话搜索通过允许用户和系统之间进行多轮交互，促进了复杂信息检索。支持这种交互需要全面理解对话输入，以便根据历史信息制定一个好的搜索查询。特别是，搜索查询应该包含之前对话轮次中的相关信息。然而，当前的会话密集检索方法主要依赖于使用整个会话搜索会话对预训练的即席检索器进行微调，这可能会很长且有噪声。此外，现有方法受到现有数据集中手动监督信号数量的限制。为了解决上述问题，我们提出了一个历史感知的会话密集检索（HAConvDR）系统，它结合了两个想法：上下文去噪查询重构和基于历史轮次实际影响自动挖掘监督信号。在两个公共会话搜索数据集上的实验表明，HAConvDR在改善历史建模能力方面有所提高，特别是对于话题转变的长对话。

URL https://arxiv.org/pdf/2401.16659

Github https://github.com/fengranMark/HAConvDR

15. AS_240913_23_ Large Language Models Know Your Contextual Search Intent: A Prompting Framework for Conversational Search

摘要: 精确理解用户的上下文搜索意图一直是会话搜索的重要挑战。由于会话搜索会话更加多样化和长尾化，现有在有限数据上训练的方法在处理真实的会话搜索场景时仍然显示出令人不满意的有效性和鲁棒性。最近，大型语言模型（LLMs）在文本生成和对话理解方面展示了惊人的能力。在这项工作中，我们提出了一个简单但有效的提示框架，称为LLM4CS，利用LLMs作为基于文本的搜索意图解释器来帮助会话搜索。在这个框架下，我们探索了三种提示方法来生成多个查询重写和假设性回应，并提出将它们聚合成一个可以稳健代表用户真实上下文搜索意图的集成表示。在三个广泛使用的会话搜索基准测试上的广泛自动评估和人工评估，包括CAT-19、CAT-20和CAT-21，证明了我们简单的LLM4CS框架与现有方法相比，甚至使用人工重写的显著性能。我们的发现为更好地理解和利用LLMs进行会话搜索提供了重要证据。