论文阅读: Shallow Semantic Parsing using Support Vector Machines

一、 摘要

目的: 用svm 做 浅层 semantic parsing 

贡献: 加入了新feature和新分类器, 泛化更好

数据集: AQUAINT corpus

 

二、 介绍

浅层语义分析定义: 分析 who dit what to whom , when,where , how 。。。。etc

早期 : 利用tagging 的思想来解释

 

三、 semantic annotation and corpora

 

数据集结果选用propbank, 每个verb 被标注为ARG0 - ARG5 , 

ARG0 : PROTO-AGENT,动作主体 

ARG1 : PROTO-PATIENT, 动作受体 等

训练集合 51000 句, 有13万成分

测试集合 2700句, 有7000成分

 

四、 问题定义

augument identification(成分获取):给定句法结构, 确定句子中每个部分的成分 (我的理解是类似于实体链指中的实体抽取, 就是确定是不是argument的候选)

argument classification(成分分类): 给定成分, 对成分进行分类

 

五、基线特征

 

predicate - predicate 自己用作特征

path - 句法路径, 应该是当前词-predicate 的路径, 组了个string

phrase type - 短语类型, NP 、 PP、 S等

position - 在 predicate 前还是后

voice - predicate 是否是主动词语

head word - 

sub categorization - 联合predicate 和 其父节点组成的句法泛化成分

 

六、 训练

 

SVM 组多分类, 

先训了一个NULL 、 NON-NULL的分类器(augument identification)

 

七、 基线效果

 

 

八 、 新feature

1. 实体信息

2.  head word pos

3. verb clustering , 对verb 进行归纳(分为64类)

4. partial path , 保留最低节点的path

5. verb sense info- 动词消岐

6. head word of prep phrase

7. 短语开始结尾postag

等等, 不介绍了

 

九、 模型表现

 

 

总结: 没啥总结的, 感觉方法都很基础, 实际泛化效果会下降20+个点, 主要是分析、和过拟合等问题导致的

 

posted on 2017-10-10 16:24  lavi  阅读(238)  评论(0编辑  收藏  举报

导航