词性标注+词法分析评价指标
词性是词汇的基本语法属性,通常称为词类。
上文中我们提到,词性标注遇到的最重要的问题就是词性兼类问题。那么,为什么会有词性兼类问题呢?
其实,在任何一种语言中,词性兼类问题都普遍存在,汉语中尤为明显。造成词性兼类问题的原因主要有以下几点:
1.汉语缺乏词形态变化,无法通过词形变化判别词类;
2.汉语中,常用词兼类现象严重,比如:
“这个人什么都好,就是好酗酒。”
其中,第一个“好”读三声,是形容词,而第二个“好”读四声,是动词。
3.没有统一的汉语词类划分标准,有些语料划分很粗糙。
词法分析中,通常用正确率、召回率、F值来评价系统的性能。
正确率(precision,P):测试结果中正确结果的个数占系统所有输出结果的比例,即 :
P = n N ∗ 100 % P=\frac{n}{N}*100\%
P=
N
n
∗100%
召回率(recall,R):测试结果中正确结果的个数占标准答案总数的比例,即:
R = n M ∗ 100 % R=\frac{n}{M}*100\%
R=
M
n
∗100%
F值(F-measure):正确率和召回率的综合值,即:
F − m e a s u r e = ( β 2 + 1 ) ∗ P ∗ R β 2 ∗ P + R ∗ 100 % F-measure=\frac{(β^2+1)*P*R}{β^2*P+R}*100\%
F−measure=
β
2
∗P+R
(β
2
+1)∗P∗R
∗100%
通常情况下,取 β = 1 β=1β=1,称为F1值,即:
F 1 = 2 ∗ P ∗ R P + R ∗ 100 % F1=\frac{2*P*R}{P+R}*100\%
F1=
P+R
2∗P∗R
∗100%
看过上面的公式之后,大家可能还是觉得一头雾水,我们来举个例子:
假设某个汉语分词系统在一测试集上输出5260个分词结果,而标准答案是4510个词语,根据这个答案,系统切分出来的结果中有4120个是正确的。
那么:
正确率P:
P = 4120 5260 = 78.33 % P=\frac{4120}{5260}=78.33\%
P=
5260
4120
=78.33%
召回率R:
R = 4120 4510 = 91.35 % R=\frac{4120}{4510}=91.35\%
R=
4510
4120
=91.35%
F1值:
F 1 = 2 ∗ P ∗ R P + R = 2 ∗ 78.33 % ∗ 91.35 % 78.33 % + 91.35 % = 84.34 % F1=\frac{2*P*R}{P+R}=\frac{2*78.33\%*91.35\%}{78.33\%+91.35\%}=84.34\%
F1=
P+R
2∗P∗R
=
78.33%+91.35%
2∗78.33%∗91.35%
=84.34%