自然语言处理词法分析

词法分析

词是最小的能够独立运用的语言单位,因此,词法分析是其他一切自然语言处理问题(例如:句法分析、语义分析、文本分类、信息检索、机器翻译、机器问答等)的基础,会对后续问题产生深刻的影响。

 

 

 

而词法分析的任务就是:将输入的句子字串转换成词序列并标记出各词的词性。

值得注意的是,这里所说的“字”并不仅限于汉字,也可以指标点符号、外文字母、注音符号和阿拉伯数字等任何可能出现在文本中的文字符号,所有这些字符都是构成词的基本单元。
从形式上看,词是稳定的字的组合。

很明显,不同的语言词法分析具体做法是不同的。
以英语和汉语为例作为对比:

 

 对于中文词法分析而言,具体任务如下图所示:
以句子:“警察正在详细调查事故原因” 为例。

 

 

中文分词词法分析包括两个主要任务:
1.自动分词:将输入的汉字串切成词串
2.词性标注:确定每个词的词性并加以标注

两个任务分别面临着一些问题:
1.自动分词:歧义问题、未登录词问题、分词标准问题
2.词性标注:词性兼类歧义问题
(这些问题的具体含义我们将在后文进行介绍)

处理这些问题的方法依然有三种:规则法、概率统计法、深度学习法。
在这里,值得注意的是,由于不同的方法有其不同的优势和短板,因此,一个成熟的分词系统,不可能单独依靠某一种算法来实现,而需要综合不同的算法来处理不同的问题。

 

 

 
posted @ 2022-03-30 08:00  青竹之下  阅读(157)  评论(0编辑  收藏  举报