自然语言处理1_概述
1.基本问题
2.主要困难
3.基本方法
(宗成庆老师课程笔记)
------------------------------------------------
1.基本问题
基本问题之一:形态学 (Morphology) 问题 研究词(word) 由有意义的基本单位-词素 (morphemes)的构成问题。
词素:词根、前缀、后缀、词尾
基本问题之二:语法学 (Syntax) 问题 研究句子结构成分之间的相互关系和组成句子 序列的规则 。
苹果,我吃了。 我吃了苹果。 苹果吃了我。
基本问题之三:语义学 (Semantics) 问题 研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。
这句话说了什么? (1) 苹果不吃了 (2) 这个人真牛 (3) 这个人眼下没些什么 (4) 火烧圆明园/火烧驴肉
基本问题之四:语用学(Pragmatics) 问题
研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。从狭隘的语言学观点 看,语用学处理的是语言结构中有形式体现的那些 语境。相反,语用学最宽泛的定义是研究语义学未 能涵盖的那些意义。
为什么要说这句话? (1)火,火! (2)看看鱼怎么样了?
基本问题之五:语音学(Phonetics) 问题 研究语音特性、语音描述、分类及转写方法等
2.主要困难
困难之一:大量歧义(ambiguity)现
困难之二:大量未知语言现象
根本:人脑的语言认知 过程到底怎样?
3.基本方法
理性主义:基于规则
知识库 + 推理系统 NLP 系统
理论基础:Chomsky 的文法理论
经验主义:基于大规模真实语料(语言数 据)建立计算方法
语料库 + 统计模型 NLP 系统
理论基础:统计学、信息论、机器学习