词性标注+词法分析评价指标

词性是词汇的基本语法属性,通常称为词类。

上文中我们提到,词性标注遇到的最重要的问题就是词性兼类问题。那么,为什么会有词性兼类问题呢?
其实,在任何一种语言中,词性兼类问题都普遍存在,汉语中尤为明显。造成词性兼类问题的原因主要有以下几点:
1.汉语缺乏词形态变化,无法通过词形变化判别词类;
2.汉语中,常用词兼类现象严重,比如:
“这个人什么都好,就是好酗酒。”
其中,第一个“好”读三声,是形容词,而第二个“好”读四声,是动词。
3.没有统一的汉语词类划分标准,有些语料划分很粗糙。

词法分析中,通常用正确率、召回率、F值来评价系统的性能。

正确率(precision,P):测试结果中正确结果的个数占系统所有输出结果的比例,即 :
P = n N ∗ 100 % P=\frac{n}{N}*100\%
P=
N
n

∗100%

召回率(recall,R):测试结果中正确结果的个数占标准答案总数的比例,即:
R = n M ∗ 100 % R=\frac{n}{M}*100\%
R=
M
n

∗100%

F值(F-measure):正确率和召回率的综合值,即:
F − m e a s u r e = ( β 2 + 1 ) ∗ P ∗ R β 2 ∗ P + R ∗ 100 % F-measure=\frac{(β^2+1)*P*R}{β^2*P+R}*100\%
F−measure=
β
2
∗P+R

2
+1)∗P∗R

∗100%

通常情况下,取 β = 1 β=1β=1,称为F1值,即:
F 1 = 2 ∗ P ∗ R P + R ∗ 100 % F1=\frac{2*P*R}{P+R}*100\%
F1=
P+R
2∗P∗R

∗100%

看过上面的公式之后,大家可能还是觉得一头雾水,我们来举个例子:

假设某个汉语分词系统在一测试集上输出5260个分词结果,而标准答案是4510个词语,根据这个答案,系统切分出来的结果中有4120个是正确的。
那么:
正确率P:
P = 4120 5260 = 78.33 % P=\frac{4120}{5260}=78.33\%
P=
5260
4120

=78.33%

召回率R:
R = 4120 4510 = 91.35 % R=\frac{4120}{4510}=91.35\%
R=
4510
4120

=91.35%

F1值:
F 1 = 2 ∗ P ∗ R P + R = 2 ∗ 78.33 % ∗ 91.35 % 78.33 % + 91.35 % = 84.34 % F1=\frac{2*P*R}{P+R}=\frac{2*78.33\%*91.35\%}{78.33\%+91.35\%}=84.34\%
F1=
P+R
2∗P∗R

=
78.33%+91.35%
2∗78.33%∗91.35%

=84.34%



 
posted @ 2022-03-19 13:39  青竹之下  阅读(321)  评论(0编辑  收藏  举报