ES-自然语言处理

前言

自然语言处理(Natural Language Processing)是计算科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分(可耻的粘贴)。
既然NLP是人工智能的一部分,那么我们就来简单说说人工智能。

人工智能

人工智能的目标

  • 推理
  • 自主学习 & 调度
  • 机器学习
  • 自然语言处理(NLP)
  • 计算机视觉处理
  • 机器人
  • 通用智能

人工智能三大阶段

  • 机器学习:只能系统使用一系列算法从经验中进行学习
  • 机器智能:机器使用的一系列从经验中进行学习的高级算法,例如深度神经网络(深度学习),人工智能目前也处于现阶段
  • 机器意识:不需要外部数据就能从经验中自我学习。

人工智能、机器学习、深度学习的关系

  • 机器学习:一种实现人工智能的方法
  • 深度学习:一种实现机器学习的技术

人工智能的类型

  • 狭义人工智能(ANI):它包含基础的、角色行任务。例如小爱、Siri、Alexa这样的聊天机器人,个人助手完成的任务。
  • 通用人工智能(AGI):通用人工智能包含人类水平的任务,它涉及到机器的持续学习。
  • 强人工智(ASI):强人工智能代指比人类更聪明的机器。

怎样让机器智能化

  • 自然语言处理
  • 知识表示
  • 自动推理
  • 机器学习

NLP

NLP的目标

NLP的目标是让计算机在理解语言方面像人类一样智能,最终的目标是弥补人类交流(自然语言)和计算机理解(机器语言)之间的差距。

为什么需要NLP

有了NLP,就可能完成自动语音、自动文本的编写等任务。让我们从大量的数据中解放出来,让计算机去执行。
这些任务包括自动生成给定文本的摘要、机器翻译及其他的任务。

NLP语言学分析

现在,有一个给定的文本。NLP可以从下面三个不同等级来分析该给定文本:

  • 语法学:该文本语法的正确性
  • 语义学:该文本的含义是什么
  • 语用学:该文本的目的的什么

除此之外,如果文本中含有音、视频,那么NLP又要从以下两方面来着手分析:

  • 音韵学:该语言中发音的系统化组织
  • 词态学:研究单词构成以及彼此之间的关系

NLP中理解语义的方法:

  • 分布式:利用机器学习和深度学习的大规模统计策略
  • 框架式:句法不同,但语义相同的句子在数据结构被表示为程式化的情景
  • 理论式:思路是句子指代的正真的词结合句子的部分内容可表达全部含义
  • 交互式(学习):它涉及大语用方法,在交互式学习环境中用户教计算机一步一步的学习语言

NLP的流程

NLP的机制涉及两个流程:

  • 自然语言理解
  • 自然语言生成

自然语言理解(NLU)

自然语言理解(Nature Language Understanding)是要理解给定文本的含义。比如文本内的每个单词的特性与结构需要被理解。在理解结构的基础上,NLU要理解自然语言中以下几个歧义:

  • 词法歧义性:单词有多重含义
  • 句法歧义性:语句有多重解析树
  • 语义歧义性:句子有多重含义
  • 回指歧义性:前文中的词语或句子在后面句子中有不同的含义

自然语言生成(NLG)

NLG是从结构化数据中以可读的方式自动生成文本的过程。
自然语言生成可分为三个阶段:

  • 文本规划:完成结构化数据中基础内容的规划
  • 语句规划:从结构化数据中组合语句来表达信息流
  • 实现:生产语法通顺的语句来表达文本

NLP的应用领域

聊天机器人

聊天机器人或者智能代理指的是,你能通过APP、聊天窗口、语音等方式进行交流的计算机程序。
它的重要性在越来越多的地方得到体现:

  • 它对理解数字化客服和频繁咨询的常规问答领域中的变化至关重要
  • 它在一些特定场景下非常的有用及高效,特别是会被频繁问到的高度可预测的问题时

聊天机器人的工作机制:

  • 基于知识:包含信息库,根据客户的问题回应相对的问题
  • 数据存储:包含与用户交流的历史信息
  • NLP层:该层将用户的问题转译为信息,从而作出合适的回应
  • 应用层:用来与用户交互的应用接口

NLP中深度学习的重要性

  • 它使用基于规则的方法将单词表示为one-hot编码向量
  • 传统的方法注重句法表征,而非语义表征
  • 词袋,分类模型不能够分别特定语境

深度学习的三项能力:

  • 可表达性:该能力描述了机器如何能近似通用函数
  • 可训练性:深度学习系统学习问题的速度与能力
  • 可泛化性:在未训练过的数据上,机器做预测的能力

除此之外,深度学习还有其他的能力,比如可解释性、模块性、可迁移性、延迟、对抗稳定性、安全方面等。

日志中的NLP

在日志分析和日志挖掘两方面,NLP在发挥着不可替代的作用。通过词语切分、词干提取、词形还原、解析等不同技术被用来将日志转换成结构化的形式。
在日志分析中,NLP通过下列技术完成分析功能:

  • 模式识别:将日志信息与模式薄中的信息进行对比,从而过滤信息的技术
  • 标准化:日志信息的标准化将不同的信息转换为同样的格式。当不同来源的日志信息中有不同的疏于,但其含义相同时,需要进行标准化
  • 分类& 标签:不同日志信息的分类 & 标签涉及到对信息的排序,并用不同的关键词进行标注
  • Artificial Ignorance:使用机器学习算法抛弃无用日志信息的技术。它也可被用来检测系统异常

当日志以很好的形式组织起来之后,我们就能从日志中提取有用的信息。

NLP的其他领域

除了在大数据、日志挖掘和分析中,NLP还浪迹在其他的应用领域中:

    • 自动摘要:在给定文本的情况下,摒弃次要信息完成文本摘要
    • 情感分析:在给定文本中预测期主题,比如文本中是否包含批判、观点、评论等
    • 文本分类:按照其领域分类不同的、新闻报道、期刊等。比如流行的文本分类是垃圾邮件、基于写作风格可检测作者的姓名
    • 信息提取:建议电子邮件程序自动添加事件到日历
posted @ 2019-04-21 19:32  骑驴老神仙  阅读(1051)  评论(0编辑  收藏  举报