星云外

zt 计算语言学 与 自然语言处理

计算语言学和自然语言处理简介
一、从一个例子开始
2001年美国电影《太空奥德赛》中的一段对话:
(Screenplay 0f 2001: A Space Odyssey,Stanley Kubrick & Arthur C. Charke编 )
Dave Bownman: Open the pod bay doors, HAL.
HAL: I’m sorry Dave, I’m afraid I can’t do that.
(Dave Bownman:HAL,请你打开太空舱的分离门。
      HAL:对不起, Dave,我不能这样做。)

 

若想HAL能通过自然语言与人类进行交流,那它就需要一下环节:

 

u   语音识别 ( speech recognition )

 

u   自然语言理解 ( natural language understanding )

 

u   自然语言生成 ( natural language generation )

 

u   语音合成 ( speech synthesis )

 

u   信息检索 ( information retrieval )

 

u   信息抽取 ( information extraction )

 

u   推理 ( reference )

 

而建立自然语言的计算机处理系统需要如下语言学知识:

 

u   声学、音系学和音位学的知识

 

u   形态学的知识

 

u   词汇学的知识

 

u   句法学的知识

 

u   语义学的知识

 

u   话语分析的知识

 

u   语用学的知识

 

u   外部世界的常识性知识

 

除了语言学领域,自然语言处理涉及的其他知识领域大致有:

 

n     计算机科学和技术:

 

                提供语言模型、算法设计、软件工程等方法和技术;

 

n     数学:

 

                提供形式化的数学模型和形式化的数学计算方法;

 

n     逻辑学:

 

                提供逻辑运算和逻辑推理的理论和方法;

 

n     心理学:

 

                提供人类语言行为的心理模型和认知模型;

 

n     统计学:

 

                提供根据样本数据来预测统计事件的方法和技术;

 

n     电子工程:

 

                提供信息论的理论基础和语言信号处理技术;

 

n     生物学:

 

              “生物语言建模”,人类语言与蛋白质序列之间具有一种类推关系。

 

二、   计算语言学和自然语言处理的研究内容和应用目标

 

             ——研究对象、过程、方向、内容、方法、应用目标

 

(一)计算语言学和自然语言处理的研究内容和应用目标

 

   1、计算语言学的研究对象涉及计算和语言,其目标是:

 

(1)从计算的角度去观察和认识语言的性质

 

       用形式化的、可计算的方式表达语言的结构规律。

 

(2)把语言作为计算对象来研究相应的算法

 

          用计算机可操作的程序来实现各种分析语言的过程。

 

2、计算语言学和自然语言处理的研究过程,包括四步:

 

n     建立语言的形式化模型(Linguistic formalism)

 

n     研究能够实现这种模型的算法 (Computational formalism)

 

n     设计可以在计算机上运行的应用系统

 

(Computer implementation)

 

n     通过语料对系统进行测试和评价,不断改进质量和性能

 

                               (System Evaluation)   

 

(1)建立语言的形式化模型(Linguistic formalism)

 

      根据一定的语言理论的观点、原则或规则,说明这种语言的各种现象,把需要解决的问题形式化,使问题本身和解决问题的方法都能严密而规整地表示出来。

 

    多以转换生成语法以后的语法理论为基础,如:

 

     广义短语结构语法(GPSG)   中心语驱动的短语结构语法(HPSG)

 

     词汇功能语法(LFG)        范畴语法(CG)

 

     功能合一语法(FUG)        蒙塔古语法(MG)等

 

     配价语法       格语法     系统功能语法等

 

 


典型的语言形式化模型:

 

     上下文无关语法、上下文相关语法、扩充转移网络等

 

(2)研究能够实现这种模型的算法 (Computational formalism)

 

     把语言模型表示成算法,就是研究如何用确定的、有限操作步骤的程序来实现对语言研究对象的分析和处理。

 

u   识别语句中的各个组成成分(词、词组、短语)

 

u   分析这些成分之间的结构关系和意义关系等

 

u   把语言模型中需要的语言知识(譬如语法知识、语义知识、关于客观世界的知识等)整理和组织成供算法使用的规则或数据。

 

(3)设计可以在计算机上运行的应用系统 (Computer implementation)

 

      程序设计(Programming)是对算法的实现。它使语言信息处理系统最终可以在计算机上运行。

 

            需要解决软件工程的方法和技术问题:

 

                  数据获取、数据组织

 

                  作业流程、系统环境、各种接口

 

(4)通过语料对系统进行测试和评价,不断改进质量和性能 (System Evaluation)

 

u   用这个系统去处理真实的语言材料,

 

u   分析运行的过程和得到的结果,

 

u   根据反馈的信息不断调整原来的设计(包括语言模型和算法)  

 

3、计算语言学和自然语言处理的研究方向

 

n     理论方向 :研究语言及语言处理与计算相关的问题。

 

n     语言工程方向

 

       把自然语言处理作为工程化的应用系统来研究,也称语言技术(language technology)。包括语言模型的算法研究和算法的实现,即系统构建和程序设计。

 

      应用系统:机器翻译、自然语言理解、语音识别与合成、智能信息检索、文本分类、自动文摘、文本信息抽取、网上智能搜索引擎,等等。

 

n     语言数据处理方向

 

      收集实际使用状态下的大量语言事实,认识它们的性质,把它们组织成非结构化的、半结构化的或结构化的文档,并且研究整理和应用这些语言数据的方法和技术。

 

      目的是发现、表达和应用有关自然语言的各个方面的知识,为语言模型和语言工程的研究提供支持。各种语料库、语言学专题数据库、机器词典的研究和建设都属于这个方向 

 

4、计算语言学和自然语言处理的研究内容

 

1. 概论:自然语言理解、自然语言生成、计算词汇学、本体知识体系

 

2. 理论 / 模型:上下文无关语法、树邻接语法、逻辑语法、n元模型

 

3. 形式化方法:语义标记、概念描述、复杂特征集、重写规则、递归定义

 

4. 算法:宽度优先、深度优先、自顶向下、自底向上、确定性算法、回溯

 

5. 字处理:汉字编码、汉字识别、汉字内部码、汉字交换码、国标区位码

 

6. 词处理:汉语分词、未登录词、歧义切分字段、词型、词例、齐普夫假设

 

7. 句处理:歧义结构、排歧、句法树、带标记树、浅层分析、基本名词短语

 

8. 篇处理:文本、超文本置标语言、可扩展置标语言、标准通用置标语言

 

9. 应用系统:信息抽取、问答系统、文本分类、信息检索、机器学习

 

10. 机器翻译:基于实例的机器翻译、基于规则的机器翻译、统计机器翻译

 

11. 语言资源:机器词典、语料库、文本对齐、样本容量、训练集、测试集

 

5、计算语言学和自然语言处理的研究方法

 

n     基于规则的方法/理性主义的方法

 

n     基于统计的方法 /经验主义的方法

 

 


关于自然语言的知识:语音、词汇、词法、句法、语义、语用

 

譬如语义知识:从意义出发,描述语言成分之间的聚合关系与组合关系

 

u    聚合关系:

 

             义类关系、同义、近义、反义、同位、上下位关系

 

u    组合关系:

 

             论元结构(论元数、论旨角色、动词对论旨角色的选择限制、语义组配关系与句法结构的对应)

 

   这两种方法的本质区别涉及到下面三个方面的问题:

 

n     如何认识和表示有关自然语言的各种知识?

 

n     如何获取有关自然语言的各种知识?

 

n     如何使用有关自然语言的各种知识?

 

(1)如何认识和表示有关自然语言的各种知识?

 

·规则方法:根据实际语言材料总结和归纳关于词汇、语法、语义、语用的规则,构成形式化的系统。用一定的形式语法系统来表述自然语言中大小成分之间的组合规律。是可供作是非判断的语言知识。

·统计方法:搜集大量的语言材料,建立语料库,根据语料库里的样本数据来统计和预测语言现象出现的可能性,用统计数据来显示语言成分组合的可能性。是统计意义上的语言知识。

 

(2)如何获取有关自然语言的各种知识?

 

·规则方法:通常采用内省的方式来归纳、调整、检验和改进语言规则,当然这也要在一定规模的语料支持下来做,只是对这些语料,人们关注的是它们的典型意义,而不是统计意义。

 

·统计方法:通过构造统计模型,用计算机对语料库中的语言现象进行统计,得到关于各种语言知识的统计规律。所谓统计规律,不仅是表示频率的数据(如字频、词频),更多的是各种统计模型:互信息、马尔科夫链、向量空间,等等。

 

(3)如何使用有关自然语言的各种知识?

n     规则方法:算法规定了运用规则来判断、推导,得出结论的运算过程。自20世纪70年代以来发展出很多比较成熟的算法技术,例如基于合一的线图分析方法、LR分析算法、富田胜算法,等等。

n     统计方法:把语言数据带入统计模型,通过计算来显示语言现象出现的可能性(语言成分组合的可能性)。自20世纪80年代以后发展出基于隐马尔科夫模型的自然语言处理算法、基于转换的错误驱动的自然语言知识学习方法,等等。统计方法最先在语音识别领域取得了比较好的效果,对汉语自动分词、词性标注等问题也有较好的效果。近几年国际上在机器翻译、文本分类、信息检索、信息提取、机器学习等领域,统计语言模型的方法得到了广泛的应用,取得了很大的进展。    

6、自然语言信息处理的应用目标

n     用计算机模拟人类的语言行为,使人与计算机之间用自然语言进行交流


n     建立各种处理自然语言的计算机应用软件系统:

  机器翻译系统     自然语言理解系统

  计算机辅助教学系统  语音自动识别和合成系统

  智能信息检索系统   文献自动分类系统

  文字自动识别系统   自动文摘、自动校对系统 

  文本信息抽取和过滤  网上智能搜索引擎

 

posted on 2010-07-26 12:36  星云外  阅读(617)  评论(0编辑  收藏  举报