自然语言处理简述
自然语言处理的基本流程:
1)分词
2)命名实体识别,主要有人名,地名,机构名等
3)词性标注,对分词后的词语进行语义标注
4)句法分析,主要是要构建语法树,标注单词,短语,句子的语法
5)语义分析,包括两部分:语义消歧,主要是针对多义词在文中的意思;语义角色标注,主要是要标出一个句子中主谓宾状语等。语义角色标注过于依赖句法分析的准确性,不过目前自动句法分析的准确性并不是特别高,因此语义角色标注的效果也一般。
6)篇章分析,在一篇文章中段落的顺序、句子的顺序都是很重要的,按照正确的表达序列排序才能构成完整的篇章。在篇章分析中可以划分的结构有篇章-段落-句子-词、篇章-句子-词、篇章-词等。
上面的六步只不过是自然语言处理中的中间步骤,并不是自然语言处理的最终目标
应用一:机器翻译
应用二:语音翻译
应用三:文本分类与情感分类
应用四:信息检索与问答系统
应用五:自动文摘与信息抽取
应用六:口语信息处理与人机对话系统