NLP概述
学习资料:《统计自然语言处理》、《自然语言处理入门》
一. 自然语言处理定义
自然语言处理又称计算语言学,其目标是让计算机处理或"理解"自然语言,以完成有意义的任务。
二. 自然语言的难度
将自然语言与编程语言对比,直观的的体会自然语言的复杂程度。
- 自然语言词汇量大
- 自然语言是非结构化的,编程语言是结构化的
- 自然语言含有大量歧义
- 容错性
- 易变性
- 简略性-人类经常省略大量背景知识或尝试说话
三. NLP的层次
自然语言处理的输入源有3个:语音、图像和文本。
前两者分别需要通过语音识别和光学字符识别(OCR)转化为最后的文本内容。一旦转化为文本,就可以开始NLP任务,对文本的处理才是NLP的关键。
形态学
词法分析:通常是后续高级任务的基础。主要分为三个任务:中文分词,词性标注,命名实体识别。
- 中文分词:将文本分为有意义的词语;
- 词性标注:确定每个词语的类别和浅层的歧义消除;
- 命名实体识别:识别出一些较长的专有名词。
语法学
句法分析:侧重于研究句子结构成分之间的相互关系和组成句子序列的规则,即语法。
语义学
语义分析与篇章分析:侧重于分析句子的语义。
主要分为词义消歧,语义角色标注乃至于语义依存分析。属于较为高级的课题。
语用学
在实际问题的研究中,上述几方面的问题,尤其是语义学和语用学 的问题往往是相互交织在一起的。语法结构的研究离不开对词汇形态的 分析,句子语义的分析也离不开对词汇语义的分析、语法结构和语用的 分析,它们之间往往互为前提。
注:一般认为信息检索(IR)是区别与自然语言处理的独立学科。因为IR的目标是查询信息,NLP的目标是理解语言。
四. NLP的核心问题
关键问题是歧义消解(disambiguation)问题和未知语言现象的处理问题。
如何面向不同的应用目标,针对不同语言单位的特点,研究歧义消解和未知语言现象的处理策略及实现方法,就成了自然语言处理 面临的核心问题。
一个实用的自然语言处理系统必须具有较好的未知语言现象的处理能力,而且有足够的对各种可能输入形式的容错能 力,即我们通常所说的系统的鲁棒性(robustness)问题。
五. NLP的流派
- 基于规则的专家系统:尝试用编程语言制定一系列的规则来表示人类语言。但是难以拓展。
- 基于统计的学习方法:运用统计模型和语料库让计算机自己学习