ArgMiner:一个用于对论点挖掘数据集进行处理、增强、训练和推理的 PyTorch 的包
论点挖掘(Argument Mining)是一项从文本中提取论点成分的任务,通常作为自动写作评估系统的一部分。这是自然语言处理中一个非常热门的领域。一个好的 AM 模型可以将一段原始将一段原始文本的序列标记为它们所属的论点内容。虽然历史上这一问题被视为一个语义分割问题,最先进的(SOTA) AM技术把它作为一个命名实体识别(NER)问题的长序列的文本。
尽管有这个领域的历史,关于NER AM数据集的文献相对较少,自2014年以来的唯一贡献是Christian Stab和Iryna Gurevych的Argument Annotated Essays。最近(截至2022年3月),随着PERSUADE(在Kaggle竞赛Feedback Prize中使用)和ARG2020数据集(在GitHub发布),这种情况虽然得到了改善,但很少有关于AM模型的跨数据集性能测试。因此也没有研究对抗性训练如何提高AM模型的跨数据集性能。对AM模型对抗实例的鲁棒性研究也较少。
由于每个数据集都以不同的格式存储,使上述挑战变得更加复杂,这使得在实验中对数据进行标准化处理变得困难(Feedback Prize比赛就可以确认这一点,因为大部分代码都是用于处理数据的)。
本文介绍的ArgMiner是一个用于使用基于Transformer的模型对SOTA论点挖掘数据集进行标准化的数据处理、数据增强、训练和推断的pytorch的包。本文从包特性介绍开始,然后是SOTA数据集的介绍,并详细描述了ArgMiner的处理和扩展特性。最后对论点挖掘模型的推理和评估(通过Web应用程序)进行了简要的讨论。
ArgMiner简介
ArgMiner 的主要特点总结如下:
- 处理SOTA 数据集,而无需编写任何额外的代码行
- 可以在单词和子标记级别生成以下标记方法 {io, bio, bioo, bixo},无需额外的代码
- 可以在不更改数据处理管道的情况下进行自定义增强
- 提供一个 用于使用任何 HuggingFace TokenClassification 模型进行论点挖掘微调的PyTorch数据集类
- 提供高效的训练和推理流程
下图显示了 ArgMiner 的端到端工作:
完整文章
https://avoid.overfit.cn/post/8bed8579a0c6485fab8c414dbf6eff90