论文阅读(2)The Penn Discourse TreeBank 2.0.
摘要
1. 引言(Introduction)
2. Annotation of Discourse Relations and their Arguments
-
显示连接词
- Arg1论元位置,范围跨度都大
-
隐式连接词
- 阅读上下文来推断
-
AltLex、EntRel、NoRel用于不能提供隐含连接词的情况
-
AltLex:用于案例 —— 插入一个隐含的连接词来表达一个 推断的关系,会导致了一个多余的关系被一些非连接表达词汇化(例7);
-
EntRel:用于案例 —— 句子之间 只能 感知到 基于实体的连贯关系的情况(例8);
-
NoRel:用于案例 —— 句子之间 没有 语篇关系或实体关系(例9)
-
- 隐式连接词在段落中所有连续的句子对之间都有注释,但它们也在由分号(“;”)或冒号(“:”)分隔的完整子句之间进行句内注释。
3. Sense Annotation
-
PDTB为显式连接词、隐式连接词和AltLex关系提供了Sense Annotation。
-
与动词一样,语篇连接词可以有多种意义,至少取决于语境和论据的内容。
-
例如,since似乎有三种sense,一种纯粹是“暂时的”(10),另一种纯粹的“因果”(11),第三种既有“因果”又有“暂时”(12)。
-
当注释者识别了多个同声传译,会提供多个 sense tags。由于论元也可能以没有对应标记的方式相关,所以sense annotation至少指定了一个但不一定是所有论元之间的语义关系。
-
按层次组织的,三个level:class、type、subtype
-
Top level(class)有四种类型:
-
“时态”(Temporal)
-
“偶然性”(Contingency):两种类型---“原因”(直接因果),“条件”(将假设情景与可能的后果联系起来)
-
“比较性”(Comparison)
-
“拓展性”(Expandsion)
-
4. Attribution Annotation
-
(14):归因于 writer
-
(15):归因于 Bill xxxx
-
(16):Arg1归因于writer,Arg2归因于purchasing agents
-
归因是连接词句法和语篇论点不匹配的主要原因。
-
也就是说,简单地把例(16)中while的句法论点作为其语篇论据,就会产生错误的语义解释,除非在描述中不考虑归因(attribution)。
-
因此,识别语篇关系中的 attibution 是 获得正确解释语篇关系的一项重要任务
-
在PDTB中,每个语篇关系 及其 两个论元 都被标注为归因
-
标注方案:归因短语 相对于的 文本跨度
-
Attribution 被注释为显式连接词、隐式连接词和Altex关系,而不是Entrel和Norel,
4.1 Source
-
“Source”特征 区分了不同类型的 agents
-
(a)the writer of the text("Wr")
-
(b)some specific agent introduced in the text(“Ot” for other)
-
(c)通过文本中的非特定引用指示的任意(“Arb”)个人
-
-
分布还表明,有大量的情况下,关系的组成部分被归因于不同的来源
4.2 Type
-
Type特征通过将抽象对象区分为四个子类型:
-
断言命题(assertion propositions)
-
信念命题(belif propositions)
-
事实和事件性(facts 和 eventualities),对主体与抽象对象之间关系的性质进行了编码。
-
4.3 Scopal polarity
- 被标注在关系和它们的论据上,以识别 当 verbs of attribution 在表层句法上被否定时的情况 (e.g., didn’t say, don’t think) ,词汇上 (e.g.,denied),但当 negation事实上颠倒了归因关系或论证内容的极性时
-
当一个更高属性的表面否定占据了很小的范围时,在关系或论元上标记“Neg”
-
scopal极性被标记为arg2的“neg”,在没有否定解释的情况下,使用“Null”作为默认。
4.4 Determinacy(确定性)
-
捕捉到这样一个事实,即在特定的上下文中,例如在否定、条件或无限范围内,关系或论元的归属本身可以被取消。
-
这种 不确定性 由值“Indet”表示,而 确定的属性 则简单地用默认的“Null”标记。
-
我们在第一节中注意到,归因不被视为语篇关系,因为归因相关的对象与语篇关系相关的对象不一样:
-
前者涉及 agents 和 抽象对象,后者涉及两个抽象对象。
5. PDTB1.0 和 PDTB2.0区别
-
整个语料库中隐含关系的注释。在PDTB-1.0中,只为WSJ的3个部分注释了隐式关系。
-
感官注释方案的修订
-
所有显式连接词、隐式连接词和AltLex关系的 senses annotation
-
属性注释(Attribution)方案的修订