论文阅读(2)The Penn Discourse TreeBank 2.0.

摘要

1. 引言(Introduction)

2. Annotation of Discourse Relations and their Arguments

  • 显示连接词

    • Arg1论元位置,范围跨度都大
  • 隐式连接词

    • 阅读上下文来推断
  • AltLex、EntRel、NoRel用于不能提供隐含连接词的情况

    • AltLex:用于案例 —— 插入一个隐含的连接词来表达一个 推断的关系,会导致了一个多余的关系被一些非连接表达词汇化(例7);

    • EntRel:用于案例 —— 句子之间 只能 感知到 基于实体的连贯关系的情况(例8);

    • NoRel:用于案例 —— 句子之间 没有 语篇关系或实体关系(例9)

  • 隐式连接词在段落中所有连续的句子对之间都有注释,但它们也在由分号(“;”)或冒号(“:”)分隔的完整子句之间进行句内注释。

3. Sense Annotation

  • PDTB为显式连接词、隐式连接词和AltLex关系提供了Sense Annotation。

  • 与动词一样,语篇连接词可以有多种意义,至少取决于语境和论据的内容。

  • 例如,since似乎有三种sense,一种纯粹是“暂时的”(10),另一种纯粹的“因果”(11),第三种既有“因果”又有“暂时”(12)。

  • 当注释者识别了多个同声传译,会提供多个 sense tags。由于论元也可能以没有对应标记的方式相关,所以sense annotation至少指定了一个但不一定是所有论元之间的语义关系。

  • 按层次组织的,三个level:class、type、subtype

  • Top level(class)有四种类型:

    • “时态”(Temporal)

    • “偶然性”(Contingency):两种类型---“原因”(直接因果),“条件”(将假设情景与可能的后果联系起来)

    • “比较性”(Comparison)

    • “拓展性”(Expandsion)

4. Attribution Annotation

  • (14):归因于 writer

  • (15):归因于 Bill xxxx

  • (16):Arg1归因于writer,Arg2归因于purchasing agents

  • 归因是连接词句法和语篇论点不匹配的主要原因。

  • 也就是说,简单地把例(16)中while的句法论点作为其语篇论据,就会产生错误的语义解释,除非在描述中不考虑归因(attribution)。

  • 因此,识别语篇关系中的 attibution 是 获得正确解释语篇关系的一项重要任务

  • 在PDTB中,每个语篇关系 及其 两个论元 都被标注为归因

  • 标注方案:归因短语 相对于的 文本跨度

  • Attribution 被注释为显式连接词、隐式连接词和Altex关系,而不是Entrel和Norel,

4.1 Source

  • “Source”特征 区分了不同类型的 agents

    • (a)the writer of the text("Wr")

    • (b)some specific agent introduced in the text(“Ot” for other)

    • (c)通过文本中的非特定引用指示的任意(“Arb”)个人

  • 分布还表明,有大量的情况下,关系的组成部分被归因于不同的来源

4.2 Type

  • Type特征通过将抽象对象区分为四个子类型:

    • 断言命题(assertion propositions)

    • 信念命题(belif propositions)

    • 事实和事件性(facts 和 eventualities),对主体与抽象对象之间关系的性质进行了编码。

4.3 Scopal polarity

  • 被标注在关系和它们的论据上,以识别 当 verbs of attribution 在表层句法上被否定时的情况 (e.g., didn’t say, don’t think) ,词汇上 (e.g.,denied),但当 negation事实上颠倒了归因关系或论证内容的极性时

  • 当一个更高属性的表面否定占据了很小的范围时,在关系或论元上标记“Neg”

  • scopal极性被标记为arg2的“neg”,在没有否定解释的情况下,使用“Null”作为默认。

4.4 Determinacy(确定性)

  • 捕捉到这样一个事实,即在特定的上下文中,例如在否定、条件或无限范围内,关系或论元的归属本身可以被取消。

  • 这种 不确定性 由值“Indet”表示,而 确定的属性 则简单地用默认的“Null”标记。

  • 我们在第一节中注意到,归因不被视为语篇关系,因为归因相关的对象与语篇关系相关的对象不一样:

  • 前者涉及 agents 和 抽象对象,后者涉及两个抽象对象。

5. PDTB1.0 和 PDTB2.0区别

  • 整个语料库中隐含关系的注释。在PDTB-1.0中,只为WSJ的3个部分注释了隐式关系。

  • 感官注释方案的修订

  • 所有显式连接词、隐式连接词和AltLex关系的 senses annotation

  • 属性注释(Attribution)方案的修订

posted @ 2020-09-17 10:52  douzujun  阅读(518)  评论(0编辑  收藏  举报