自动分词面临的问题

自动分词面临着三个问题:歧义问题、未登录词问题、分词标准问题,下面我们将对它们一一进行解释。

歧义
这里的歧义指的是切分歧义:对同一个待切分字符串存在多个分词结果。分为交集型歧义、组合型歧义和混合歧义。

交集型歧义:字串abc既可以切分成a/bc,也可以切分成ab/c。其中,a、bc、ab、c是词。
举个例子:
“白天鹅”——“白天/鹅”、“白/天鹅”;
“研究生命”——“研究/生命”、“研究生/命”
至于具体要取哪一中分词方法,需要根据上下文来推断。
也许对于我们来说,这些歧义很好分辨,但是对计算机而言,这是一个很重要的问题。

针对交集型歧义,提出链长这一概念:交集型切分歧义所拥有的交集串的个数称为链长。
举个例子(朋友们可以自己划分一下,还蛮有趣的):
“中国产品质量”:{国、产、品、质},链长为4;
“部分居民生活水平”:{分、居、民、生、活、水},链长为6.

组合型歧义:若ab为词,而a和b在句子中又可分别单独成词。
举个例子:
“门把手弄坏了”——“门/把手/弄/坏/了”、“门/把/手/弄/坏/了”
“把手”本身是一个词,分开之后由可以分别成词。

混合歧义:以上两种情况通过嵌套、交叉组合等而产生的歧义。
举个例子:
“这篇文章写得太平淡了”,其中“太平”是组合型歧义,“太平淡”是交集型歧义。

通过上面的介绍可以看出,歧义问题在汉语中是十分常见的。

未登录词
未登录词是指:词典中没有收录过的人名、地名、机构名、专业术语、译名、新术语等。该问题在文本中的出现频度远远高于歧义问题。

未登录词类型:
1.实体名称:汉语人名(张三、李四)、汉语地名(黄山、韩村)、机构名(外贸部、国际卫生组织);
2.数字、日期、货币等;
3.商标字号(可口可乐、同仁堂);
4.专业术语(万维网、贝叶斯算法);
5.缩略语(五讲四美、计生办);
6.新词语(美刀、卡拉OK)

未登录词问题是分词错误的主要来源。

分词标准
对于 “汉语中什么是词” 这个问题,不仅普通人有词语认识上的偏差,即使是语言专家,在这个问题上依然有不小的差异。

“缺乏统一的分词规范和标准” 这种问题也反映在分词语料库上,不同语料库的数据无法直接拿过来混合训练。

原文链接:https://blog.csdn.net/echoKangYL/article/details/87912509

posted @ 2022-03-29 08:00  青竹之下  阅读(188)  评论(0编辑  收藏  举报