词性标注
所谓词性标注就是根据句子的上下文信息给句中的每个词确定一个最为合适的词性标记。比如,给定一个句子:“我中了一张彩票”。对其的标注结果可以是:“我/代词中/动词/了/助词/一/数词/张/量词/彩票/名词。/标点”
词性标注的难点主要是由词性兼类所引起的。词性兼类是指自然语言中一个词语的词性多余一个的语言现象。词性兼类是自然语言中的普遍现象,例如下面的句子:S1=“他是山西大学的教授。”; S2=“他在山西大学教授计算语言学。”句子S1中,“教授”是一个表示职称的名词,而句子S2中“教授”是一个动词。对人来说,这样的词性歧义现象比较容易排除,但是对于没有先验知识的机器来说是比较困难的。词性兼类在汉语中很突出,据不完全统计,常见的词性兼类现象有几十种,这些兼类现象具有以下分布特征:l)在汉语词汇中,兼类词的数量不多,约占总词条的5一11%。2)兼类词的实际使用频率很高,约占总词次的40一45%。也就是说,也是常用的词,其词性兼类现象越严重。3)兼类词现象分布不均:在孙茂松等的统计中,仅动名兼类就占全部兼类现象的49.8%;在张民门的统计中,动名兼类和形副兼类就占全部113种兼类现象的62.5%。词性兼类的消歧常采用概率的方法,如隐马尔科夫模型。这些方法的有效性依赖于兼类词性的概率分布。但是有些兼类的词性的概率分布近似,特别是高频的词性兼类现象,如汉语的动词名词兼类,对于这些兼类现象,传统的概率方法很难奏效,如何解决这个问题目前词性标注面临的主要困难之一。