The Penn Discourse Treebank 3.0 Annotation Manual

1. Introduction

  • PDTB是基于一个简单的想法,即,篇章关系是建立在一组可识别的单词或短语(篇章连接词)或仅仅是在两个句子的邻接中。

  • 本手册首先总结了PDTB-3中的新功能以及它与PDTB-2中的不同之处。

  • 需要注意的是,PDTB-3中的每个token都标有其 出处,表明它是PDTB-2 token的副本、PDTB-2 token的修改版本 还是 PDTB-3的新版本(参见第8.3节)

  • 这种来源是为了让研究人员能够 比较 他们在pdtb-2上的早期结果 和 更新版本的语料库上的结果,以及tp在整个pdtb-3语料库的基础上产生新的结果。

2. What's New in the PDTB-3?

  • 简单地说,PDTB-3比PDTB-2既大又好。在尺寸方面,PDTB-3包含了13K多个标记,用于标注话语关系,总共53631个标记。

  • 在质量方面,某些成对注释决策已被标准化(例如,Contrast vs. Concession),并应用于所有 以前的 和 新的注释标记;

  • 某些难以注释的senses已经被放弃,而倾向于更容易注释的sense;

  • 已经添加了新的语义,作为已经注释的标记和新标记的更合适的标签(第4节);

  • 并且在整个语料库中进行了一系列一致性检查,以 确保相似的标记 要么以相似的方式被注释,要么显示出不同(第7节)。

  • 对具有不同标签的类似 token 进行了校正,以使注释在整个语料库中保持一致,并检查重叠 tokens 是否相互一致。

  • 请注意,这与评估 Inter-annotator Agreement (IAA)不同,它只解决注释者对单个tokens的分歧。

  • 关于附加注释方面,大多数是 intra-sentential (Intra-S) discourse relations。如果token完全位于 PDTB 中 top-level S-node 的投影范围内,则将其视为 Intra-S。否则,被视为 Inter-S。

  • 新注释的 Intra-S 标记包括 连词动词短语中的连词(第5.4节)和连词从句 之间的关系,自由或有头附加语 与 其附属从句之间的关系(第5.1节),infinitival clauses 与其 matrix clauses 之间的关系(第5.2节),以及其他从属结构 与其 matrix clauses 之间的关系(第5.3节)。

  • 新的注释还包括 显式标记的问题-回答对(question-response pairs),称为 Hypophora (Section 2.7.1)

  • 除了 被引用的speech 中的 四个标记 被解析为 句子内部片段(sentence-internal fragments)外,大多数都是Inter-S。

  • 新注释的还有词汇-句法结构(lexico-syntactic constructions),它们是特定篇章关系的明确信号,它们被归类为AltLexC(第2.7.2节),以表明它们是AltLex结构的一种类型,但也允许它们独立于其他AltLex标记而被发现。

  • 图1比较了 PDTB-2 和 PDTB-3 中注释的 关系类型的分布。

图1:

  1. PDTB-2 和 PDTB-3中注释的标记在句子内和句子之间的分布。显式标记具有显式连接词。

  2. AltLex 和 AltLexC 标记 缺少显式的连接词,但 包含其他短语 或 基于结构的证据来证明参数之间的关系。(推断关系)

  3. 在EntRel tokens中,Arg1中提到的实体 和 Arg2的内容之间存在关系。 (基于实体的连贯关系)

  4. Hypophora tokens涉及 Arg1中提出的问题 和 Arg2中的答案。

  5. 隐含标记中包含的关系必须被推断出来,而NoRel则表示(段落中的相邻句子)它们之间没有关系。

2.1 New Senses

2.2 Multi-sense connectives whose sense depends on their PoS

2.3 Discontinuous Connectives

2.4 Paired Connectives

2.5 Explicit Connectives in Intra-Sentential Discourse Relations

2.6 Spans that can be analyzed as one connective or two

2.7 New Relation Types

2.7.1 Hypophora

2.7.2 AltLexC

3. What’s different in the PDTB-3?

4. PDTB-3 Senses

4.1 PDTB-2 和 PDTB-3 sense hierarchy(层次)之间的差异

  • PDTB-3关系层次结构 简化并扩展了 PDTB-2关系层次结构(表1)。

  • 简化包括将 Level-3级关系 限制为方向性差异,并消除罕见和/或难以注释的senses(第4.1.1节)。

  • 增加允许 注释一些 新的句内关系(第4.1.2节)。

4.1.1 简化关系层次结构

  • 虽然层次结构保留了相同的四个 Level-1 关系,但 Level-3 关系现在只编码方向性,因此现在只出现不对称的 Level-2 关系。

  • 在pdtb-2中,没有方向的Level-3关系(例如,Equivalence)要么被移到Level-2,要么由于它们的稀有性或它们对注释者造成的困难而被消除(e.g.,Level-3 relation under Constrast)。

  • 关于方向性,在PDTB-2中,有些关系的论元在 句子间(inter-sententially) 以一种顺序出现,结果却以 句子内(intra-sententially)的 任何一种顺序出现。

  • 这意味着他们需要两个Level3版本:

    • 例如,在条件关系(Condition relations)中传递条件的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1(如示例50所示)

    • 而在替换关系(Substitution relations)中传递所选替代(现称为substitute)的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1,如示例51所示。

    • 关于 Exception,我们还没有注意到,在这样注释的一些标记中,Exception出现在Arg2中,而在其他标记中,Exception出现在了Arg1中。

    • 现在,每个direction上,都支持不同的 Level-3 type

  • Arg1作为条件

    • Call Jim Wright’s office in downtown Fort Worth, Texas, these days and the receptionist still answers the phone, ”Speaker Wright’s office.
  • Arg1作为substitute

    • instead of featuring a major East Coast team against a West Coast team, it pitted the Los Angeles Dodgers against the losing Oakland A’s [wsj 0443]
  • Arg1作为Exception

    • Twenty-five years ago the poet Richard Wilbur modernized this 17th-century comedy merely by avoiding ”the zounds sort of thing,” as he wrote in his introduction. Otherwise, the scene remained Celimene’s house in 1666.
  • Arg2作为Exception

    • Hoston Co. officials declined to comment on Moodys action on the units financial per-
      formance this year except to deny a published report that outside accountants had discovered evidence of significant accounting errors in the first three quarters results

  • Level-2 pragmatic relations 已经从PDTB-2中删除,取而代之的关系的标签 表明 implicit belif(epistemic knowledge 认知知识)或 言语行为 是否与论元相关
    (参见Table 1,显示了 已发现的belif 或 speech act version的证据 之间的关系)

  • 如,Ex.54 显示了一个隐式 Cause.Result relation,其中结果 Arg2 论元是 the (speaker’s/writer’s) belief that the deadline could be extended.

    • 它的sense因此被标注为:Contingency.Cause + Belief.Result + Belief

    • (54) That deadline has been extended once and Implicit=so could be extended again. [wsj 2032]

  • 类似,Ex. 55 显示了一个 Concession.Arg2-as-denier relation,其中 被 denied(or cancelled)的是 与 Arg2 相关的 speech act.

    • 它的sense因此被标注为:Comparison.Concession + SpeechAct.Arg2-as-denier + SpeechAct.

    • (55) He spends his days sketching passers-by, or trying to. [wsj 0039]

  • List relation 已经 从PDTB-2层次结构中删除,因为实际上它与连词(Conjunction)没有区别。

  • 两个非对称的PDTB-2关系的名称也被改变了,以显示出共同点:

    • Restatement 被重新命名为 Level-of-detail,其 Specification 和 Generalization subtypes 现在仅被视为directional variants—— 分别为 Arg2-as-detail 和 Arg1-as-detail;

    • 以及 Concession的 sub-types,隐晦地被称为 Contra-expectation and Expectation(反期望和期望),已经被重新命名以反映directionality的不同—— Arg1-as-denier and Arg2-as-denier

4.1.2 Augmenting the relation hierarchy(扩充关系层次)

  • 研究发现,在标注 Intra-S(句子内) 篇章关系时,还需要更多的senses。

  • 其中包括 Expandsion 下的 asymmetric Manner relation,以及 在 Instantiation 下独立的 Arg1-as-instance relation。

  • 在 Contingency,additional senses 发现被需要 the asymmetric Level-2 relations of Negative Condition and Purpose(both having Arg1 and Arg2 directions at Level-3) and a Level-3 relation of Negative Result under Cause (目前还没有找到消极原因的证据。)

  • Similarity新的对称Level-2关系被添加到 Comparison,因为它明显省略了 PDTB-2 作为对称关系 Contrast 的组成。

  • 请注意,PDTB-2中的所有现有标记都被映射到修订后的关系层次结构中的senses,以及用于注释新标记的标记。虽然大多数映射只是1:1,但如果不是,则需要手动审查以确保一致性和一致性(参见第6.2节)。

4.2 Sense Classification

PDTB-3 sense labels 的定义 shown in Table 1

4.2.1 Temporal Relations

The tag temporal 被用来描述 论元 将与 temporally 相关的情形。

Temporal.Synchronous: 当论元所描述的事件之间存在一定程度的时间重叠时,使用此标记。包括所有形式的重叠。


Temporal.Asynchronous:当一个event被描述发生在其他event之前的时候使用。

The label Temporal.Asynchronous:当一个Arg1描述的event 发生在 Arg2描述的event 之前。(Arg1 << Arg2))

4.2.2 Contingency Relations

The tag Contingency: 当一个论元描述的情况为另一个论元的情况 explanation 或 justification 时使用

posted @ 2020-09-20 22:08  douzujun  阅读(585)  评论(0编辑  收藏  举报