文档问答（document QA）

文档问答指的是从非结构化文档中提取答案。

近年来基于深度神经网络的机器阅读理解 ( Machine Reading Comprehension，MRC ) 技术得到了快速的发展，

逐渐成为问答和对话系统中的关键技术。MRC模型以问题和文档为输入，通过阅读文档内容预测问题的答案。根据需要预测的答案形式不同，阅读理解任务可以分为填空式 ( Cloze-style )、多项选择式 ( Multi-choice )、片段提取式 ( Span-extraction ) 和自由文本 ( Free-form )。

在实际问答系统中，最常使用的是片段提取式阅读理解（MRC），该任务需要从文档中提取连续的一段文字作为答案。最具影响力的片段提取式MRC公开数据集有SQuAD和MSMARCO等，这些数据集的出现促进了MRC模型的发展。

在模型方面，深度神经网络结构被较早的应用到了机器阅读理解任务中，并采用基于边界预测(boundary-based prediction)方式解决片段提取式阅读理解任务。这些模型采用多层循环神经网络+注意力机制的结构获得问题和文档中每个词的上下文向量表示，在输出层预测答案片段的起始位置和终止位置。

近年来预训练语言模型如BERT，RoBERTa和XLNet等在众多NLP任务上取得突破性进展，尤其是在阅读理解任务上。这些工作在编码阶段采用Transformer结构获得问题和文档向量表示，在输出层同样采用边界预测方式预测答案在文档中的位置。目前在单文档阅读理解任务SQuAD上，深度神经网络模型的预测EM/F1指标已经超越了人类标注者的水平，说明了模型在答案预测上的有效性。

posted on 2022-02-08 11:06 毛无语666 阅读(1648) 评论(0) 编辑收藏举报

刷新页面返回顶部

毛无语666

文档问答（document QA）

导航

公告