自然语言处理初步作业三
1.试构造一个汉语词性标注的实例,说明用Viterbi算法进行词性标注的过程。
一、viterbi算法原理及适用情况
Viterbi算法是求隐马模型的动态规划方法
隐马模型赋予每个词性标注序列一个"概率"(加双引号是因为我们去掉了归一化函数,并不是真正意义的概率).基于这个概率,我们需要求出概率最大的词性标注序列.
用运筹学的语言来表述,每个词性标注序列都是一种可能的解,每个解都对应一个数值(这里是"概率").我们需要求出最大化该数值的解.
Viterbi算法由Andrew Viterbi在1967年提出,用动态规划的方法来解决这个优化问题.我们可以借助小规模问题的最优解来获得大规模问题的最优解(我们最关心的规模为l的问题的最优解).
我们用一个表来记录从第1个词开始,每种词性标注序列的概率.如
词性 | 开头 | I | love | dogs | 结束 |
---|---|---|---|---|---|
开头 | 1 | 0 | 0 | 0 | 0 |
人称代词 | 0 | 0.16 | 0 | 0.013464 | 0 |
动词 | 0 | 0.09 | 0.0748 | 0 | 0 |
名词 | 0 | 0 | 0 | 0.04488 | 0 |
结束 | 0 | 0 | 0 | 0 | 0.1017952 |
第i行j列的节点记录了第j个词为i词性时的最优词性标注路径(包含了j词前面词的词性序列)上上一个词的词性,黑体字表示了句子的最优词性标注序列
所以end节点就储存了所有词(所有词都在end词前)的最优词性标注路径.这里最优指的是隐马模型下词性标注序列的概率.
我们的代码实现中用两个矩阵,命名为Viterbi和path,来分别记录概率(隐马模型下词性标注序列的概率)和最优解(词性标注序列)
Viterbi(i, t)记录了限定第t个词为i词性,规模为j的词性标注问题的最优解对应的概率.代表第t个词为i词性时,前t个词的词性标注序列的最优解的值.通过迭代来实现:
\(Viterbi(i,t)=max_{k=1}^Kemission(t,i)∗Viterbi(k,t−1)∗transition[i,t]\)
用path(i,t)来记录第t个词为i词性时,前t个词的词性标注序列的最优解中第t-1个词的词性.一步步回溯,我们就可以获得这个最优解.
以中文的词性标注为例。
中文中,每个词会有多种词性(比如"希望"即是名字又是动词),给出一个句子后,我们需要给这个句子的每个词确定一个唯一的词性,实际上也就是在若干词性组合中选择一个合适的组合。
动词、名词等词类的搭配是具有规律性的,比如动词+名词的形式是大量存在的,当我们看到句子"存在希望",如果确定了"存在"是动词,那么由于动名词组合的概率较大,我们就会认定"希望"是名词。
viterbi算法的原理就是基于此。我们需要计算所有的名词+动词,名词+名词,动词+形容词……等各种种词性搭配的出现概率,然后从中选出最大概率的组合。
二、操作步骤
1、需要准备一个语料库,包含已经正确标注了词性的大量语句。
2、对语料库的内容进行统计。需要得到以下数据。
(1)所有可能的词性。
(2)所有出现的词语。
(3)每个词语以不同词性出现的次数。
(4)记录句首词为不同词性的次数。
(5)记录句子中任一两种词性相邻的次数(如遇到:"看电影"这个句子,则有[动词][名词]的值加一。
3、针对前面统计的结果,进行分析计算。需计算以下数据。
(1)计算每类词性作为句首出现的比例(比如:动词为句首,占所有不同词性为句首中的比例);
(2)计算后词固定为词性[n]时,前词为词性[x]占总情况的比例(如:后词固定为[动词]时,前词[名词]出现的次数占所有[x][动词]的比例);
(3)计算每一个词作为不同类词性出现的次数,占所有该类词出现总数的比例(如:"中国"作为名词出现的次数占所有名词的比例)。
4、输入句子进行词性标注
输入的句子中每个词有多个词性。我们需要选出合适的一个组合。
比如输入句子"希望"+"的"+"田野",分别有词性个数p1,p2,p3,p4,则可能的词性组合数为:S=p1p2p3*p4,我们需要从S个不同组合中选出最优的一个组合。
如下图:
2.对汉语中的兼类词进行分析,撰写词的兼类问题的分析报告,尝试给出词类判定的语言学规则。
2.1词的兼类问题的分析报告
所谓兼类,是指一个词具有两种或两种以上词类的语法功能,但并不是说这个词在同一个具体语句中同时具备几个词类的性质,而是指这个词在一个场合中具备A类词的性质而不具备B类词的性质,在另一场合具备B类词的性质而不具备A类词的性质。
兼类词的存在不是现代汉语的特有的一种现象,词的兼类在语言当中客观存在。语言的经济、求简原则,是兼类词存在的客观原因。表现在现代汉语中,就是一词多义,一词多义的发展就是兼类词存在的语义基础。我们知道,现代汉语的词没有严格意义上的形态变化,因而词类的划分主要是根据词的语法功能,以意义为参考,形态为辅助的标准来划分词类的。大部分的词语的语法特征较为明显,语法功能较为稳定,因而可以归入相应的词类,但是也存在着部分语法功能不太稳定的词语,在划分词类的时候,会出现两种或两种以上的语法功能。例如:“这是一项十分艰苦的工作)。”和“他常年工作(2)在教师岗位上。”两句话中的“工作”一词,在不同的语境中,尽管意义上有密切的联系,但是具备了两种词的语法特征,“工作()”为名词“工作(2)”为动词,这就是词的兼类。简而言之,词的兼类是指音同、形同的一个词,在不同语境中出现意义相关、主要语法功能分属于不同词类的一种词语跨类现象。
从理论上讲,按照这个定义,词的兼类问题似乎已十分明确。但在语言的实际运用中还会出现各种各样的情况。下面试从以下几个方面谈一谈有关的问题。
对待词的兼类问题,我们一方面要承认现代汉语词类划分中存在兼类现象,另一方面又不主张扩大兼类范围。
首先,不能根据一个词在某一特定句子中担任的句法成分就决定它所属的类别,进而断定这个词为兼类词。 例如:
(1a)它来了 (1b)他在调查情况
(2a)来可以了解情况 (2b)调查很及时
(3a)来的时机不好 (3b)调查的结果很难说
在第(1)组中,“来”和“调查”是动词,没问题。但在第(2)组中它们担任主语,是否判定它们兼属名词呢?在第(3)组中,它们加上助词“的”又作了定语,是否又得认为它们是形容词呢?现在,我们不采纳“按照句子成分决定词类”的 观点,认为汉语的句子成分与词类不是一一对应的关系,只将“来”和“调查”划归为动词。理由是:汉语语法的一个重要特点就是汉语的同一词类在语法结构中可以担任多种句法成分,而且这些不同成分没有形态上的标记。 在汉语中,并非只有名词才能作主语、宾语,动词、形容词也可以作主语、宾语,并非只有形容词才能作定语,动词、形容词也可以作定语。 在第(2)(3)组的句子中,“来”和“调查”虽然作了主语和定语,但他们仍保留了动词的主要语法功能。 与名词不同,它们可以作谓语,可以带宾语,可以带补语,可以受副词修饰。 上面的例子都可以扩充出很多合法的句子。 例如:“他来了可以了解情况”,“警察调查情况很及时”,“来投资的时机不好”,“调查下去的结果很难说”。 这些语言事实说明:第(2)组和第(3)组中的“来”和“调查”仍是动词,并没有转化为名词或形容词。动词、形容词作主语、宾语的例子还有:
打是疼,骂是爱。 (动词作主语)
他喜欢游泳。 (动词作宾语)
不懂就是不懂,不要装懂。 (动词作主语)
慢是好的,可不要太慢。 (形容词作主语)
不怕热,只怕冷。 (形容词作宾语)
我们不怕艰难困苦。 (形容词作宾语)
其次,不同类的词具有部分相同的语法功能,就不宜看作是词的兼类。
比如:动词和形容词都能受副词修饰,都能带趋向动词作补语,都能带数量宾语。 如“不学习”、“不灵活”、“风忽然刮起来了”、“灯忽然亮起来了”、“睡了两小时”、“安静了两天”。 这些例子只能说明形容词和动词具有部分相同的语法功能,不能认为动词“学习”、“刮”和“睡”兼属形容词,也不能认为形容词“灵活”、“亮”、“安静”兼属动词。 有少数动词,如“喜欢”、“想念”、“放心”、“抱歉”等可以受“很”一类程度副词修饰,也不能认为它们兼属形容词。 关于这个问题,吕叔湘先生这样说:
……一个甲类词,在某一场合具有咱们规定为乙类词的特点,应该算是乙类词,可并不是难得这样用,是经常这样用,而且同类的词大多数都能这样用。例如“天冷了”,一般都说“冷”是形容词,但是如果规定只有动词能作谓语,能加“了”,这里的“冷”是不是动词?换句话说,“冷”是不是兼属形容词和动词两类?这就要考虑了。 假使咱们采用这样的看法,大多数形容词都要兼属动词,这两类词就不大分得清,这个分类法就有毛病了。这个时候,咱们就应该考虑一下,当初的标准是否定的恰当。 为什么不可以把作谓语和加“了”字不作为动词的特点而作为动词和形容词的共同特点,再从别的方面去分辨这两个词类呢?只要把标准改定一下,这一词两属就不是一词两属了。
第三,要区分异类和兼类。先看下面的例子:
(4a)买了一束花 (4b)花了很多钱
(5a)开了一个会 (5b)会拉小提琴
(6a)桌子上有两封信 (6b)别信他的话
a组中的“花、会、信”与b组中的“花、会、信”字形与读音完全一样,但词义显然不同,我们认为它们各是两个不同的词,是异类词。 有一种观点认为这类词可以处理为“广义的兼类”,理由是“词的意义的辨别有时并不容易,依据句法功能进行分类比较容易操作”,采用“‘广义兼类’可以降低句法层面上的研究的难度”。我们认为,上面的这类词只是同音同形的异类词,本质上是两个词,不能看成兼类,并且从概念上讲“广义的兼类”仍属兼类,这无疑扩大了兼类的范围。如果应用了这个概念,将标准放宽,又会有许多种可以称为“广义的兼类”的词出现。 因此,我们暂不主张采用“广义的兼类”的概念。至于同字不同音的词,如果不属于同一类,则无论如何不能看作是词的兼类,如读上声的“好”是形容词,读去声的“好”是动词。
第四,确定兼类词可否采用量化分析的方法。
兼类问题的焦点在于动名兼类和形名兼类。有人分别对动名兼类和形名兼类问题进行考察统计。按照一些标准来确定具有名词语法功能的动词和形容词在所有动词和形容词中所占比例,来判断它们是否属于兼类词。
按以下三项标准对 3036个动词进行考察:
(1) 能带名量词(万能的“种”和特殊用法的“个”除外) 。(2) 直接接受名词修饰并能受前置动量词修饰。 结果表明:符合两项或两项以上标准的动名兼类词占总数的 12.91%,只符合一项标准的动名兼类词占总数的 19.32%,比例都很小,所以都可以把它们看作动名兼类词。 同样对 1538个形容词进行考察,形名兼类的词占总数的 4.2%,所以也完全可以将这部分处理成形名兼类。
使用量化分析法确定兼类词可以说是一种比较科学的方法,对一些词的实际应用状况进行统计,无疑是有意义、有价值的。但是现代汉语词汇相当丰富,且又不断发展变化,对大量词汇进行统计非少数人短期所能胜任。如果对少数词的不同时期的用法进行笼统地统计就匆匆作出结论,难免会陷于主观,还会出现不同的意见。 另外,进行量化分析时到底达到多大比例后便不属兼类也没有一个统一的标准,不能够进行“一刀切”后便了事。 所以在量化分析方法的具体应用中难免会出现各种各样的问题。
第五,兼类词的范围不能过宽,否则就会导致“词无定类”。
兼类的太多,就应当另选分类标准。吕叔湘在《关于汉语词类的一些原则性问题》 一文中谈到,“‘一词多类’的情形是会有的,但是不应该有大量的‘跨类’的词”“这是可以靠选择分类标准来掌握的”。朱德熙先生也说“兼类的词只能是少数,如果把A和B分为两类之后,大部分A类词用时兼属B类,或大部分B类词兼属A类,那只能说明我们当初把A和B划分为两类词本身没有多大意义”。例如:他研究1人类史—这笔研究2经费只用于艾滋病研究3“研究 1”、“研究 2”和“研究 3”从意义上来说,是相同的。“研究1”带宾语,还有其它方面的功能,大家都认为是动词。“研究2”和“研究 3”的用法———直接受名词修饰和直接修饰名词,这是典型的名词的用法。这样说来。“研究 1”和“研究 2”、“研究 3”似乎应该处理为兼类词。但是考虑到“研究”这种双音节动词“所占的比例竟高达 31%”,如此高的比例,不符合“兼类词的范围不能过宽”的原则,所以把它们看作兼类词,就不合适了。朱德熙先生采用了这样一种办法就是把它们合为一类,看作是动词中的一个小类,称为“名动词”。这类词是具有名词性质的动词,类似的还有:组织、准备、调查、领导等。
第六,意义上毫无关系的同音同形词不看作兼类词。例如:
白 1纸—我白2跑了一趟。“白 1”和“白 2”应该看作两个词。因为虽然他们同音,但不同义———“白1”表示“像霜或雪的颜色”(本文对词的释义都来自《现代汉语词典》,下同),表示性质:“白2”则表示“没有效果,徒然。”按语法功能,“白 1”是形容词,“白 2”是副词,不能看作兼类词。
最后,区别词的活用与词的兼类。
词的活用是指为达到某种修辞效果,某类词被临时用作其他类词。例如“我是喝黄酒的,可如果你们一定要喝白干,我也可以白干一下。”这里的后一个“白干”被临时借用为动词,是活用现象。值得注意的一点是“词的活用”有时能够发展为“词的兼类”,在发展过程中会存在混沌状态。
比如,近年来在一些作家笔下,出现很多“程度副词+名词”的结构。通常情况下,副词不直接修饰名词,这是现代汉语中的一般规律。 一个名词偶尔被这样用,是名词活用为形容词,属于“词类活用”现象。 例如:
(1) 我的长相很中国。
(2) 这样答问题,太公式了吧!
(3) 愫细很淑女地啜饮高脚杯中的白酒。
一个名词,如果经常地出现在这类结构中,这些词的单一的“名词”词性就会受到质疑。 “结果便出现词性裂变现象,使一个形式在原来名词词性的基础上裂变出形容词。 这样,一个形式就兼有名词和形容词两个词性。”在转化过程中,一些名词可能会介于二者之间,出现模糊现象,如:
(1)太儿戏,不行。
(2)她太教条了,全盘接受了学校老师灌输给她的理论。
(3)张和生则批评电视剧肤浅,编者主观的东西太多,而且审美观念太传统。
这里的“儿戏”、“教条”、“传统”是名词的活用呢?还是已经成了形容词了呢?似乎难于一时下结论。
语言是不断发展变化的,词的用法也总处在不断的发展过程中。 例如:“投入”原是动词,“投入精力”和“投入资金”都是动宾结构,但是现在也有了形容词的用法:“他对事业很投入”,“搞科学研究不投入是难有成就的”。并且,汉语中缺少严格意义上的形态变化,致使“汉语中许多语法现象是渐变而不是顿变,在语法分析上就容易遇到各种‘中间状态’”。 当我们遇到各种“渐变”的情况时,不应急于下结论,而应更多地关注这一现象在实际中的应用情况,尊重语言事实,寻找其发展规律。
2.2词类判定的语言学规则
(1)并列鉴别规则
如:体现了人民的要求(N/V ?)和愿望(N,非兼类)。
(2)同境鉴别规则
如:一个优秀的企业必须具备一流的产品(名词,非兼类)、一流的管理(N/V ?)和一流的服务(N/V ?)。
(3)区别词鉴别规则(区别词只能直接修饰名词)
如:他们搞的这次大型(鉴别词,非兼类) 调查(V/N ?)历时半年。
(4) 唯名形容词鉴别规则(有些形容词只能直接修饰名词)
如:重大(唯名形容词)损失(N/V ?) 巨大(唯名形容词)影响(N/V ?)
还可以根据词语的结构建立词性标注规则
(1) 词缀(前缀、后缀)规则
− 形容词:蓝茵茵,绿油油,金灿灿,…
− 数量词:一片片,一次次,一回回,…
− 人名简称:李总,张工,刘老,…
− 其他:年轻化,知识化,…{化}
篮球赛,足球赛,…{赛}
(2) 重叠词规则
- 看看,瞧瞧,恶心心,高高兴兴,热热闹闹,…
3.了解目前常见的几种汉语词性标注集,比较它们的差异。
有以下几种常见的汉语词性标注集
1. 《PFR人民日报标注语料库》词性编码表
2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记
3. 计算所 ICTCLAS 3.0汉语词性标记集
4. HanLP词性标注集
5. BosonNLP词性标注
6. 结巴分词中出现的类型
7. StanfordNLP的词性标记(中文)
<a name="jgSyj"></a>
《PFR人民日报标注语料库》词性编码表
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。
《现代汉语语料库加工规范——词语切分与词性标注》词性标记
制订《现代汉语语料库加工规范》的基本思路如下:
⑴ 词语的切分规范尽可能同中国国家标准 GB13715“信息处理用现代汉语分词规范” (以下简称为“分词规范”)保持一致。由于现在词语切分与词性标注是结合起来进行的,而且又有了一部《现代汉语语法信息词典》(以下有时简称“语法信息词典”或“语法词典”)可作为词语切分与词性标注的基本参照,这就有必要对“分词规范”作必要的调整和补充。
⑵ 小标记集。词性标注除了使用《现代汉语语法信息词典》中的 26 个词类标记(名词 n、时间词 t、处所词 s、方位词 f、数词 m、量词 q、区别词 b、代词 r、动词 v、形容词 a、状态词 z、副词 d、介词 p、连词 c、助词 u、语气词 y、叹词 e、拟声词 o、成语 i、习用语 l、简称 j、前接成分 h、后接成分 k、语素 g、非语素字 x、标点符号 w)外,增加了以下 3 类标记:①专有名词的分类标记,即人名 nr,地名 ns,团体机关单位名称 nt,其他专有名词 nz;②语素的子类标记,即名语素 Ng,动语素 Vg,形容语素 Ag,时语素 Tg,副语素 Dg 等;③动词和形容词的子类标记,即名动词 vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词 vd(具有副词特性的动词),副形词 ad(具有副词特性的形容词)。合计约 40 个左右。
⑶ 规范的多元性。既要适应语言信息处理与语料库语言学研究的需要,又要能为传统的语言研究提供充足的素材;既要适合计算机自动处理,又要便于人工校对。
⑷ 词组(短语)本位汉语语法体系的指导作用。汉语的词类与句法成分之间不存在简单的一一对应关系。同一个句法成分可以由不同词性的词来充任;而具有确定词性的同一个词又可以充当不同的句法成分,形式上可以没有任何不同的标记。《现代汉语语法信息词典》是在词组本位语法体系的语法思想指导下研制的,其最基本的成果是对数以万计的词语根据其在实际语料中的语法功能分布,特别是优势功能分布决定了它们的词性(即它们所属的词类)。在进行词性标注时,应当充分利用《现代汉语语法信息词典》,承接这个基本成果,避免仅根据词在所在的句子中充当的句子成分来决定其词性。同时考虑到语言学界对汉语词类的划分存在不同意见,在标记集中增加了名动词 vn,名形词 an,副动词 vd,副形词 ad。当然,增加这些标记并非只是缓冲不同意见,主要是为了给词的兼类研究提供计量根据,也 为汉语词的概率语法属性描述作准备。
⑸ 为了对新闻语料中大量存在的专有名词(地名、团体机构名称等)进行研究(从命名规律到自动识别),在切分与标注的基础上对由若干个词组合而成的短语型专有名词加上方括号和类型标记(主要是 nt,nz,还有少量的 ns)。
⑹ 不是孤立使用本规范。在使用本规范对语料库进行加工时,将与《现代汉语语法信息词典》等项研究成果密切配合。当现在的研究和将来的应用(中文信息检索、中文信息提取、汉外机器翻译等)相衔接时,就可以方便地利用词典中丰富的词语语法属性信息。而经过切分和词性标注的语料库又可以验证和丰富词典中词语的属性,进而建立词的概率语法属性描述。经过切分和词性标注的语料库同《现代汉语语法信息词典》结合,形成一个立体的语言知识库。语料库的进一步深加工(树库,注音,义项标注等)也有了可靠的基础。
⑺ 人机互助的工作方式。以本规范为基准,继续扩充自动加工软件的功能并提高其精度。人工校对是必要的。需要重视校对人员之间的切磋,要将对学术问题的不同见解统一到规范的制订与执行上。开发机器辅助编辑和语料库管理软件,保证语料库加工的一致性。
切分时从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。
计算所 ICTCLAS 3.0汉语词性标记集
本标记集在制定过程中主要考虑了以下几方面的因素:
1.有助于提高汉语词法分析器的切分和标注正确率;
2.有助于提高汉语句法分析器的正确率;
3.有助于汉英机器翻译系统进行翻译;
4.易于从北大《人民日报》语料库词性标记集进行转换;
5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。
在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。
对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。
另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。
HanLP词性标注集
HanLP使用的HMM词性标注模型训练自2014年人民日报切分语料,随后增加了少量98年人民日报中独有的词语。所以,HanLP词性标注集兼容《ICTPOS3.0汉语词性标记集》,并且兼容《现代汉语语料库加工规范——词语切分与词性标注》。
BosonNLP词性标注
BosonNLP词性标注集是基于《北京大学现代汉语语料库基本加工规范》和《计算所汉语词性标记集》修改得到的。 与最初《北京大学现代汉语语料库基本加工规范》相比,主要修改有:
- 姓名和起来标”nr”,只有姓单独出现的时候标”nr1”,如“张/nr1 教授/n”
- 短语型的地名、团体机构名称及其他专有名称只进行最小粒度的划分,不需要再合并标注。
- 去掉了各种语素,“Ng”,“Ag”等都标回“n”,“a”等。
- 去掉“i”(成语俗语)和“l”(惯用语)标签,改成“nl”、“al”、“bl”等各种词性的惯用语标签
- 去掉标签“j”(缩略词),将其标回原来的词性
- 依据《计算所汉语词性标记集》的标准对一些标签进行细分
- 增加标签“vi”(不及物动词)
结巴分词中出现的类型
jieba是采用和ICTCLAS兼容的标记法;计算所词性标注集的作者是张华平老师,张华平老师也是ICTCLAS的作者,因此ICTCLAS词性标注集就是北大计算所的词性标注集。ICTCLAS现在已经更新为NLPIR 。
StanfordNLP的词性标记(中文)
动词,形容词(4种):VA,VC,VE,VV
谓词性形容词:VA
谓词性形容词大致上相当于英语中的形容词和中文语法中、文学作品里的静态动词。我们的谓词性形容词包括两类:
第一类:没有宾语且能被“很”修饰的谓语。
第二类:源自第一类的、通过重叠(如红彤彤)或者通过名词加形容词模式意味着“像N一样A”(如雪白)的谓语。这个类型的谓词性形容词没有宾语,但是有一些不能被“很”修饰,因为这些词的强调意思已经内嵌在词内了。
注意:当集合(VA)中的一个词修饰名词但没有用“的”,那么它被标注为JJ(名作定)或是一个名词,而不是VA。当集合(VA)中的一个词有一个宾语,那么它被标注为VV,而不是VA。譬如,这 项/M 活动 丰富/VV 了/AS 他 的/DEG 生活。
系动词:VC
“是”和“为”被标记为VC。如果“非”的意思是“不是”并且句子里没有其他动词时,“非”也被标注为VC。
“是”有几种用法:
连接两个名词短语或者主语:他是/VC 学生。
在分裂句中:他是/VC 昨天 来 的/SP。
为了强调:他是/VC 喜欢 看 书。
现在,在所有这些情况中,“是”被标注为VC。
“有”作为主要动词:VE
只有当“有,没{有}”和“无”作为主要动词时(包括占有的“有”和表存在的“有”等等),被标注为VE。
其他动词:VV
VV包括其他动词,诸如情态动词,提升谓词(如“可能”),控制动词(如“要”、“想”),行为动词(如“走”),心理动词(如“喜欢”、“了解”、“怨恨”),等等。
名词(3种):NR,NT,NN
专有名词:NR
专有名词是名词的子集。一个专有名词可以是一个特定的人名,政治或地理上定义的地方(城市、国家、河流、山脉等),或者是一种组织(企业、政府或其他组织实体)。一个专有名词通常是独一无二,并且不能被Det+M所修饰的。
以下名字是专有名词:地区/国家/村庄/城市,山脉/河流,报纸/杂志,组织/公司,学校/联盟/基金会,个人/家庭。
以下名字不是专有名词:国籍(如中国人),种族(如白人),职称(如教授),疾病,职业,器官(如肺),乐器(如钢琴),游戏(如足球),花(如玫瑰),等等。
时间名词:NT
时间名词可以是介词的宾语,譬如在、从、到、等到。它们可以被问及,如“这个时候”,也可以被用以提问“什么时候”。它们也可以直接修饰VP(动词短语)或者S(主语)。像其他名词一样,时间名词可以是某些动词的论元。
时间名词可以是时间的名称(如1990年、一月、汉朝)或是由“PN+LC,N+LC,DT+N”等结构组成。例子:一月、汉朝、当今、何时、今后
其他名词:NN
其他名词包括所有其他名词。其他名词NN,除了地方名词,一般不能修饰动词短语(有“地/DEV”或者没“地/DEV”)。
定位(1种):LC
方位词:LC
很多名词单独使用时不能作为介词如“在”、“到”的论元,也不能直接修饰VP(动词短语)或者S(主语)。方位词的一个功能是连接前述的名词短语或者主语,从而使整个短语可以作为这些介词的论元或者来修饰动词短语或主语。
一些方位词可以独立使用作为介词或动词的论元。一些方位词可以被“最”修饰。方位词不能被Det+M所修饰。
方位词分为两类:
方位词:这类方位词表示方向、位置等。它们来自名词。一些可以单独使用作为介词或动词的论元。一些可以被“最”修饰。它们不能被Det+M所修饰。
单音节方位词:如:前,后,里,外,内,北,东,边,侧,底,间,末,旁。
双音节方位词:它们由以下部分组成:
单音节方位词加上诸如“以、之”等的语素。例子:之间,以北。
两个单音节方位词。例子:前后,左右,上下,东北。
其他:我们把以下情况标注为LC。
为止:到目前 为止。
开始:从四月 开始。
来:5年来。
以来:1998年 以来。
起:一九九三年 起。
在内:包括他 在内。
代词(1种):PN
代词的功能是作为名词短语的替代物或者表示事先详细说明的或者从上下文可知晓的被叫的人或事。它们一般不受Det+M或者形容词性短语修饰。
代词包括人称代词(如我、你),当作为名词短语单独使用时为指示代词(如这、那),所有格代名词(如其)以及反身代词(如我自己、自己)。
限定词和数词(3种):DT,CD,OD
限定词:DT
限定词包括指示词(如这、那、该)和诸如“每、各、前、后”等词。限定词不包括基数词和序列词。参见限定词部分。
基数词:CD
CD包括基数词并随意与一些概数词连用,如“来、多、好几”和诸如“好些、若干、半、许多、很多(如很多 学生)”等词。例子:1245,一百。
序列词:OD
序列词被标注为OD。我们把第+CD看做一个词,并标注它为OD。例子:第一百。
度量词(1种):M
度量词跟在数字后形成Det+M结构修饰名词或动词,包括类词(如“个”),表示一群的度量词,如“群”,以及公里、升等度量词。
一些度量词可以被有限的形容词(如一/CD小/JJ瓶/M水/NN),临时量词可以被名词和形容词修饰(如:一/CD铁/NN箱子/M书/NN)。
副词(1种):AD
副词包括情态副词、频率副词、程度副词、连接副词等,大部分副词的功能是修饰动词短语或主语。如:仍然、很、最、大大、又、约
介词(1种):P
介词可以把名词短语或从句作为论元。注释:把和被不标注为P。如:从、对
连词(2):CC,CS
并列连接词:CC
CC的主要模式是:XP{,},CC XP。如:与、和、或、或者、还是(or)
从属连词:CS
从属连词连接两个句子,一个句子从属于另一个,这样的连词标记为CS。CS模式是:CS S1,S2和S2 CS,S1。如:如果/CS,……就/AD……
助词(8):DEC,DEG,DER,DEV,SP,AS,ETC,SP,MSP
“的”作为补语标记/名词化标记:DEC(的,之)
如:吃的DEC。模式是:S/VP DEC{NP}
注:的还有其他标记
DEC 他的/DEG车
SP 他是/VC一定要来的/SP。
AS 他是/VC在这里下的/AS车。
“的”作为关联标记或所有格标记:DEG
模式:NP/PP/JJ/DT DEG{NP}。
补语短语 得:DER
在V-得-R和V-得结构中,“得”标记为DER。注:有些以“得”结尾的搭配不是V-得结构,如记得,获得是动词。
方式“地”:DEV
当“地”出现在“XP地VP”,XP修饰VP。在一些古典文学中,“的”也用于这种情景,此时“的”也标注为DEV。
动态助词:AS
动态助词仅包括“着,了,过,的”。
句末助词:SP
SP经常出现在句末,如:他好吧[SP]?有时,句末助词用于表停顿,如:他吧[SP],人很好。如:了,呢,吧,啊,呀,吗
ETC
ETC用于标注等,等等。
其他助词:MSP
“所,以,来,而”,当它们出现在VP前时,标注为MSP。
所:他所[MSP]需要的/DEC
以或来:用……以/MSP(或来)维持
而:为……而[MSP]奋斗
其他(8种):IJ,ON,PU,JJ,FW,LB,SB,BA
感叹词:IJ
出现在句首位置的感叹词,如:啊。
拟声词:ON
修饰“ON地V”中的VP:雨哗哗[ON]地[DEV]下了[AS]一夜
修饰“ON中的N”中的NP:砰[ON]的/DEG一声!
自行成句:砰砰[ON]!
一般不能被副词修饰,如:哗啦啦,咯吱。
长“被”结构:LB
仅包括“被,叫,给,为(口语中)”,当它们出现在被字结构NP0+LB+NP1+VP中。如:他被/LB 我训了/AS 一顿/M .
注:当叫作为兼语动词时,“叫”标注为VV。如:他叫/VV你去。
短“被”结构:SB(仅包括口语中的“被,给”)
NP0+SB+VP,他被/SB 训了/AS一顿/M。
注:“给”有其他标记:LB,VV和P。如:你给/P他写封/M信。
把字结构:BA
仅包括“把,将”,当它们出现在把字结构中(NP0+BA+NP1+VP)。如:他把/BA你骗了/AS。
注:“将”有其他标记:AD和VV,如:他将/VV了[AS]我的[DEG]军。
其他名词修饰语:JJ
包括三种类型:
区别词 只修饰模式JJ+的+{N}或JJ+N中的名词,且一定要有“的”,它们不能被程度副词修饰。如:共同/JJ的/DEG目标/NN,她是[VC]女/JJ的/DEG。
带有连字符的复合词。通常为双音节词JJ+N 如留美/JJ学者/NN
形容词:新/JJ消息/NN。模式:JJ+N
注:当“的/DEC”在形容词和名词中间时,形容词标记为VA。
外来词:FW
FW仅被用于:当词性标注标记在上下文中不是很清楚时。外来词不包括外来词的翻译,不包括混合中文的词(如卡拉OK/NN,A型/NN),不包括词义和词性在文中都是清楚的词。
标点:PU
当标点是词的一部分时,不用标注为PU,如123,456/CD。