zt 计算语言学 与 自然语言处理
计算语言学和自然语言处理简介
若想HAL能通过自然语言与人类进行交流,那它就需要一下环节:
u 语音识别 ( speech recognition )
u 自然语言理解 ( natural language understanding )
u 自然语言生成 ( natural language generation )
u 语音合成 ( speech synthesis )
u 信息检索 ( information retrieval )
u 信息抽取 ( information extraction )
u 推理 ( reference )
而建立自然语言的计算机处理系统需要如下语言学知识:
u 声学、音系学和音位学的知识
u 形态学的知识
u 词汇学的知识
u 句法学的知识
u 语义学的知识
u 话语分析的知识
u 语用学的知识
u 外部世界的常识性知识
除了语言学领域,自然语言处理涉及的其他知识领域大致有:
n 计算机科学和技术:
提供语言模型、算法设计、软件工程等方法和技术;
n 数学:
提供形式化的数学模型和形式化的数学计算方法;
n 逻辑学:
提供逻辑运算和逻辑推理的理论和方法;
n 心理学:
提供人类语言行为的心理模型和认知模型;
n 统计学:
提供根据样本数据来预测统计事件的方法和技术;
n 电子工程:
提供信息论的理论基础和语言信号处理技术;
n 生物学:
“生物语言建模”,人类语言与蛋白质序列之间具有一种类推关系。
二、 计算语言学和自然语言处理的研究内容和应用目标
——研究对象、过程、方向、内容、方法、应用目标
(一)计算语言学和自然语言处理的研究内容和应用目标
1、计算语言学的研究对象涉及计算和语言,其目标是:
(1)从计算的角度去观察和认识语言的性质
用形式化的、可计算的方式表达语言的结构规律。
(2)把语言作为计算对象来研究相应的算法
用计算机可操作的程序来实现各种分析语言的过程。
2、计算语言学和自然语言处理的研究过程,包括四步:
n 建立语言的形式化模型(Linguistic formalism)
n 研究能够实现这种模型的算法 (Computational formalism)
n 设计可以在计算机上运行的应用系统
(Computer implementation)
n 通过语料对系统进行测试和评价,不断改进质量和性能
(System Evaluation)
(1)建立语言的形式化模型(Linguistic formalism)
根据一定的语言理论的观点、原则或规则,说明这种语言的各种现象,把需要解决的问题形式化,使问题本身和解决问题的方法都能严密而规整地表示出来。
多以转换生成语法以后的语法理论为基础,如:
广义短语结构语法(GPSG) 中心语驱动的短语结构语法(HPSG)
词汇功能语法(LFG) 范畴语法(CG)
功能合一语法(FUG) 蒙塔古语法(MG)等
配价语法 格语法 系统功能语法等
上下文无关语法、上下文相关语法、扩充转移网络等
(2)研究能够实现这种模型的算法 (Computational formalism)
把语言模型表示成算法,就是研究如何用确定的、有限操作步骤的程序来实现对语言研究对象的分析和处理。
u 识别语句中的各个组成成分(词、词组、短语)
u 分析这些成分之间的结构关系和意义关系等
u 把语言模型中需要的语言知识(譬如语法知识、语义知识、关于客观世界的知识等)整理和组织成供算法使用的规则或数据。
(3)设计可以在计算机上运行的应用系统 (Computer implementation)
程序设计(Programming)是对算法的实现。它使语言信息处理系统最终可以在计算机上运行。
需要解决软件工程的方法和技术问题:
数据获取、数据组织
作业流程、系统环境、各种接口
(4)通过语料对系统进行测试和评价,不断改进质量和性能 (System Evaluation)
u 用这个系统去处理真实的语言材料,
u 分析运行的过程和得到的结果,
u 根据反馈的信息不断调整原来的设计(包括语言模型和算法)
3、计算语言学和自然语言处理的研究方向
n 理论方向 :研究语言及语言处理与计算相关的问题。
n 语言工程方向
把自然语言处理作为工程化的应用系统来研究,也称语言技术(language technology)。包括语言模型的算法研究和算法的实现,即系统构建和程序设计。
应用系统:机器翻译、自然语言理解、语音识别与合成、智能信息检索、文本分类、自动文摘、文本信息抽取、网上智能搜索引擎,等等。
n 语言数据处理方向
收集实际使用状态下的大量语言事实,认识它们的性质,把它们组织成非结构化的、半结构化的或结构化的文档,并且研究整理和应用这些语言数据的方法和技术。
目的是发现、表达和应用有关自然语言的各个方面的知识,为语言模型和语言工程的研究提供支持。各种语料库、语言学专题数据库、机器词典的研究和建设都属于这个方向
4、计算语言学和自然语言处理的研究内容
1. 概论:自然语言理解、自然语言生成、计算词汇学、本体知识体系
2. 理论 / 模型:上下文无关语法、树邻接语法、逻辑语法、n元模型
3. 形式化方法:语义标记、概念描述、复杂特征集、重写规则、递归定义
4. 算法:宽度优先、深度优先、自顶向下、自底向上、确定性算法、回溯
5. 字处理:汉字编码、汉字识别、汉字内部码、汉字交换码、国标区位码
6. 词处理:汉语分词、未登录词、歧义切分字段、词型、词例、齐普夫假设
7. 句处理:歧义结构、排歧、句法树、带标记树、浅层分析、基本名词短语
8. 篇处理:文本、超文本置标语言、可扩展置标语言、标准通用置标语言
9. 应用系统:信息抽取、问答系统、文本分类、信息检索、机器学习
10. 机器翻译:基于实例的机器翻译、基于规则的机器翻译、统计机器翻译
11. 语言资源:机器词典、语料库、文本对齐、样本容量、训练集、测试集
5、计算语言学和自然语言处理的研究方法
n 基于规则的方法/理性主义的方法
n 基于统计的方法 /经验主义的方法
譬如语义知识:从意义出发,描述语言成分之间的聚合关系与组合关系
u 聚合关系:
义类关系、同义、近义、反义、同位、上下位关系
u 组合关系:
论元结构(论元数、论旨角色、动词对论旨角色的选择限制、语义组配关系与句法结构的对应)
这两种方法的本质区别涉及到下面三个方面的问题:
n 如何认识和表示有关自然语言的各种知识?
n 如何获取有关自然语言的各种知识?
n 如何使用有关自然语言的各种知识?
(1)如何认识和表示有关自然语言的各种知识?
·规则方法:根据实际语言材料总结和归纳关于词汇、语法、语义、语用的规则,构成形式化的系统。用一定的形式语法系统来表述自然语言中大小成分之间的组合规律。是可供作是非判断的语言知识。 ·统计方法:搜集大量的语言材料,建立语料库,根据语料库里的样本数据来统计和预测语言现象出现的可能性,用统计数据来显示语言成分组合的可能性。是统计意义上的语言知识。
(2)如何获取有关自然语言的各种知识?
·规则方法:通常采用内省的方式来归纳、调整、检验和改进语言规则,当然这也要在一定规模的语料支持下来做,只是对这些语料,人们关注的是它们的典型意义,而不是统计意义。
·统计方法:通过构造统计模型,用计算机对语料库中的语言现象进行统计,得到关于各种语言知识的统计规律。所谓统计规律,不仅是表示频率的数据(如字频、词频),更多的是各种统计模型:互信息、马尔科夫链、向量空间,等等。
(3)如何使用有关自然语言的各种知识? n 规则方法:算法规定了运用规则来判断、推导,得出结论的运算过程。自20世纪70年代以来发展出很多比较成熟的算法技术,例如基于合一的线图分析方法、LR分析算法、富田胜算法,等等。 n 统计方法:把语言数据带入统计模型,通过计算来显示语言现象出现的可能性(语言成分组合的可能性)。自20世纪80年代以后发展出基于隐马尔科夫模型的自然语言处理算法、基于转换的错误驱动的自然语言知识学习方法,等等。统计方法最先在语音识别领域取得了比较好的效果,对汉语自动分词、词性标注等问题也有较好的效果。近几年国际上在机器翻译、文本分类、信息检索、信息提取、机器学习等领域,统计语言模型的方法得到了广泛的应用,取得了很大的进展。 6、自然语言信息处理的应用目标 n 用计算机模拟人类的语言行为,使人与计算机之间用自然语言进行交流
机器翻译系统 自然语言理解系统 计算机辅助教学系统 语音自动识别和合成系统 智能信息检索系统 文献自动分类系统 文字自动识别系统 自动文摘、自动校对系统 文本信息抽取和过滤 网上智能搜索引擎 |