DialFact: A Benchmark for Fact-Checking in Dialogue
DialFact: A Benchmark for Fact-Checking in Dialogue
DialFact:对话场景事实核查
作者:Prakhar Gupta, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong
美国卡内基梅隆大学、Salesforce人工智能研究院 ACL 2022
论文地址:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2110.08222
事实核查任务(Fact-Cheking)是指对给定论断(claim),基于其文本本身、检索出的判据或用户在社交网络上的讨论,对其真实性(veracity)进行判断。
Benchmark:基准
Colloquialisms:口语化
摘要
事实核查是减少错误信息和虚假信息传播的必要工具。本文在对话中引入事实核查,这是一个未被探索的领域。本文构建了DialFact,这是一个包含22245条带注释的会话声明的测试基准数据集,并与维基百科的证据进行了配对。DIALFACT中有三个子任务:
1)可验证的断言检测任务:判断是否携带可验证的事实信息;
2)证据检索任务:检索最相关的维基百科片段作为证据;
3)断言验证任务:预测对话响应是正确、错误或信息不足无法判断。
我们发现,现有的基于非对话数据(如FEVER)训练的事实核查模型(Thorne等人,2018)无法很好地完成我们的任务,因此,我们提出了一种简单但数据高效的解决方案,以有效提高对话中的事实核查性能。我们指出了DialFact所面临的独特挑战,如在错误分析中处理口语化、共引用和检索歧义,为未来这方面的研究提供依据。
三个挑战:
- 口语化:验证对话中主张的事实正确性对数据集的构建和建模都提出了新的挑战。现有数据集中的claim来自正式来源,如新闻文章,它们通常简洁和正式。相比之下,对话中的主张往往是非正式的,而事实内容却很少。此外,对话话语通常包括个人观点、俚语和口语化,这些都需要与事实信息区分开来。
- 对话事实核查的另一个挑战是省略和共引用经常发生,使话语不完整和不明确。
- 歧义?实体消歧和共指消解 虽然根据对话,人们可以很容易地理解带有引用或缺少信息的话语上下文和他们的推理技巧,一个事实核查系统可能需要对这种行为进行显式建模。
模型任务实现:为了验证事实,我们建议通过利用否定、实体交换、语言模型掩码和填充和知识基础生成等技术来创建弱监督的训练数据。我们在这个任务上建立了基准模型的性能,并指出了事实核查模型的弱点。