从社会讨论中进行的无监督的知识转移有助于论点挖掘吗?

从社会讨论中进行的无监督的知识转移有助于论点挖掘吗?

论点挖掘的两个基本步骤:

(1)从非结构化文本中识别论证成分;

(2)预测它们之间表示的关系。

 

自动论证挖掘的三个一般步骤:

(1)区分争论和非争论的范围;

(2)分类论证成分;(“主张”和“前提”)

(3)在他们其中形成一个结构。

 

摘要:

  手工注释数据的稀缺和论证的高度领域依赖的性质限制了基于转换的语言模型(LM)的能力。本文提出了一种新的迁移学习策略,利用ChangeMyView子板块中论证丰富的社会讨论,通过对选择性蒙面的语言建模任务的微调,将预先训练好的LM作为无监督的论证话语感知知识的来源。此外,还引入了一种新的基于提示的成分间关系预测策略,以补充提出的微调方法,同时利用语篇语境。

 

介绍:

  本文研究的原因、背景。

  首先,本文是以在线讨论中的论证为背景,以几篇帖子为例,说明了在现实中,可能存在一部分内容在一个帖子中无法确定其争论性的情况,只有当它的前任帖子及其组成部分被作为上下文时,第三个帖子才能被确定为争论性的(在本例中是一个前提)。这也是对话连续性的具体表现。这是对以往的自动提取、分类和关联争论成分的方法只适用于个别的帖子,并在关系预测的后期阶段定义了帖子间的话语这种方式的突破。

  这样做的两个原因在于:首先,如果我们考虑两个文本跨越单独的评论被一些争论的关系,然后存在一个连续性的话语之间这些跨度和模型可能会受益,如果它决定这两个组件的边界和类型的连续信息;其次,用户携带他们的论证风格(简单连续的连续句子和长复杂的句子,使用“我认为”等),如果模型在观察来回帖子的完整对话时了解这些信息,它更有可能很容易地提取正确的组件。

  其次,现在存在的一个问题就是标记数据不足。参数注释是一个资源密集型的过程,像BERT这样的预训练语言模型提供了一种解决方案来处理特定于任务的注释数据的稀缺性,参数密集型模型最初在大量文本上以自我监督的方式进行训练;这种预训练使模型能够学习一般的语言表示,然后对特定于任务的标记数据进行细化。然而,后者的数量仍然决定了这些模型的表达能力。

  所以,基于现在面临的种种情况,目前的工作就是我们使用了大量来自Reddit的r/ChangeMyView(CMV)社区的未标记的讨论线程作为争论知识的来源。使用蒙面语言建模任务对该数据集进行细化的、预训练的、基于变压器的语言模型。我们不是随机掩蔽标记来预测,而是在文本中选择几个标记来作为之前作品中显示的辩论话语。然后建立语言模型来预测MLM任务中的这些标记,从而学习根据文本在论证中的角色将文本的不同组成部分联系起来。为了探索上下文在参数挖掘中的作用,我们使用sMLM来微调基于BERT和RoBERTa的后级语言模型和基于Beltagy的线程级语言模型。

 

研究现状:

(1)论证成分的检测和分类

一般使用的模型有:BiLSTM-CNN-CRF模型,BERT等。

 

(2)学习语言表征的话语标记

模型在识别两个成分之间的关系时,往往更依赖于上下文,而不是成分的内容。上下文中存在的话语标记为关系预测任务提供了强有力的信号。

 

(3)Reddit上的论点挖掘

主要焦点仍然是说服的动态。

 

步骤:

预训练语言模型的选择性MLM微调

(1)CMV的话语结构;

(2)选择性MLM微调;

(3)论证成分标识;

(4)分量间关系预测。

posted @ 2023-02-22 19:09  Linqylin  阅读(9)  评论(0编辑  收藏  举报