语言智能之自然语言处理前沿进展综述
摘 要:语言智能旨在使用信息技术模拟人脑机制进而处理、分析人类语言,实现学科的交叉融合。随着人工智能技术的兴起发展,自然语言处理作为计算机领域语言智能的主要体现,面临着巨大的应用需求及发展机遇。综述阐释了自然语言处理的基本内容,概括了自然语言处理的发展历程及现状,总结了自然语言处理在内容、技术、应用及领域四个方面的前沿进展,并对自然语言处理的未来加以期许。
关键词:自然语言处理;深度学习;前沿
A Survey of the Frontiers of Natural Language Processing in Language Intelligence
Abstract: Language Intelligence comes up to simulate human brain mechanisms to process and analyze human languages, and to achieve cross-disciplinary integration with the help of information technology. With the rise and development of AI, natural language processing(NLP), as the main component of Language Intelligence in Computer Science, is facing great needs in application and development opportunities. The overview explains the fundamental content of NLP, summarizes its development history and current status of NLP, points out the frontier progress of NLP in four aspects of the domain, technology, application, and field, and prospects the future of NLP.
Key word: Natural Language Processing , Deep Learning , Frontier
1 引言
随着科技的进步和时代的发展,人工智能给人类带来颠覆性的影响。随着人工智能由感知智能迈入认知智能阶段,其与神经生理学、逻辑学、语言学等多学科的交叉融合充满机遇与挑战,"语言智能"应势而生,并在许多领域崭露头角。
胡开宝(2022)认为,语言是一种资源,未来将是被语言智能书写的世界。语言智能发展的重要性可见一斑。语言智能即语言信息的智能化,是运用计算机信息技术模仿人类智能,分析、处理人类语言的过程(周建设etal.,2017)。在计算机科学和人工智能领域,语言智能处理主要体现为自然语言处理,旨在使人类能够通过自然语言与计算机系统进行智能交互(李佐文and梁国杰,2022;黄河燕etal.,2022)。由此可见,自然语言处理研究是语言智能发展的关键环节。近年来,自然语言处理研究取得许多前沿进展,成为语言智能领域飞速发展的缩影。
2自然语言处理概述
自然语言即人们日常交际所用的语言(高源,2019)。常见的自然语言有汉语、英语等。自然语言处理即将人类之间交流沟通所用的自然语言进行处理,将之转换为机器能理解的机器语言的过程。通过研究语言能力的模型和算法框架,自然语言处理实现了人机交互,打破了人类与计算机之间的交流壁垒(高源,2019;赵京胜etal.,2019)。
韩志恒(2020)认为,自然语言处理是目前所有信息技术中最先进的技术。自然语言处理的出现突破了我国原先的人工智能体系,在一定程度上决定着我国人工智能的发展方向,被称为人工智能"皇冠上的明珠"。因此,关注自然语言处理、跟进相关前沿发展对社会各界将人工智能技术应用到其他领域有着深远意义。
KiranKhatter(2022)从研究过程的角度指出,自然语言处理的主要目的是从预期目标出发,使用各种算法、工具对自然语言数据进行解释、分析和操作。方明之(2019)从研究结果的角度指出,自然语言处理的主要目的是以自然语言的形式实现人和计算机的交互。人在日常生活中使用自然语言进行沟通,计算机则用二进制代码表示的机器指令集合实现其底层逻辑。对于人类来说,机器语言是非常复杂的,计算机同样无法理解人类的语言。为解决这种语言障碍,计算机科学家们致力于让计算机理解人类所使用的自然语言,自然语言处理应运而生。
自然语言处理包括自然语言理解和自然语言生成两部分内容。自然语言理解是指计算机能够理解自然语言的意义,而自然语言生成是指计算机能够以自然语言的形式表达给定的意图(赵园丁,2019)。在理解阶段,我们通过提取概念、实体、情感、关键词等对自然语言内容进行分析,使计算机在规则指导或反复训练后能够理解输入的自然语言文本;在生成阶段,计算机根据前述的分析内容产生有意义的结果,解决相关的自然语言处理任务(Khuranaetal.,2022)。
自然语言处理的流程大致可分为五步:获取语料、语料预处理、特征化、模型训练、模型评价。获取语料即得到自然语言形式的文本、语音等内容;语料预处理需完成清理、分词、词性标注、去停用词等基本的语料处理步骤,便于后续分析;特征化则将字词等元素转换为向量,便于计算机处理;模型训练需根据数据特性、业务需求、计算能力、使用场景等因素选择合适的信息处理架构,模型大致可分为有监督、半监督、无监督三种类型;模型评价则是对建模后的效果进行评测,确定模型的鲁棒性、扩展性、移植性等性质。经过上述流程,原始的自然语言内容被计算机理解、学习,并生成完成特定任务需要的分析结果(赵京胜etal.,2019)。
从流水线的角度看,自然语言处理的研究任务大致可分为三类:完成自然语言处理之前的语言学、语料库建设等准备任务;词法分析、句法分析、语义分析、语用分析等基本任务,利用自然语言处理结果完成特定目标的情感分析、意图识别等应用任务(王海宁,2022;赵京胜etal.,2019)。
近年来,自然语言处理发展势头迅猛,国外许多研究人员在该领域取得了突破性成果。目前,自然语言处理研究有以下四个特点(冯志伟,2006;李生,2013):
• 使用语料库处理大规模真实文本
• 使用机器学习自动获取语言知识
• 使用统计方法分析语言数据
• 使用以语言知识为核心的多种方法,并更加关注词汇特性
其中,使用机器学习及深度学习等人工智能算法进行研究成为当前自然语言处理的明显趋势,该领域许多探究、分析及解释的工作得到很好的完成(叶符明, 2021)。
3自然语言处理的过去、现在与未来
3.1自然语言处理发展历程回顾
王海宁(2022)认为,自然语言处理的历史可以追溯到17世纪Leibniz等哲学家对通用字符进行探索,并在《神正论》中提出建立一种普遍语言的设想,这为自然语言处理技术的发展奠定了理论基础。1950年,Turing提出图灵测试,用于检验机器是否能表现出与人等价或无法区分的智能,学界普遍认为这是自然语言处理的真正开端。随后,基于图灵机计算模型的自动机理论广泛传播,分析问题的理论工具"自动机"被提出,这为现代计算机科学发展奠定了坚实的基础。1956年,Chomsky提出自然语言处理领域著名的上下文无关语法,学界也由此分为基于规则的符号派和基于概率的随机派,进而引发了其后数十年有关这两种方法孰优孰劣的争执(方明之,2019;Khuranaetal.,2022)。
20世纪60年代后,以BASEBALLQ-A、SHRDLU和ELIZA为代表的一些较为成功的自然语言处理系统不断涌现。这一阶段,相关研究主要基于规则和专家系统,专家从语言学角度分析自然语言的结构规则对文本等内容加以处理(王海宁,2022)。
然而,受制于人工制定的结构规则相对复杂且覆盖效果差、相关理论和技术的不成熟,自然语言处理领域的相关问题无法快速得到解决并实现应用落地,自然语言处理研究发展缓慢,陷入停滞。
直到20世纪90年代,随着计算机速度和存储量的大幅度提高,机器学习算法被引入自然语言处理研究,自动获取语言知识进行训练的学习模式极大地促进了自然语言处理的发展(方明之,2019)。2006年,Hinton和学生提出了利用RBM编码的深层神经网络,将神经网络重新带回学界视线,进而产生了深度学习算法。深度学习算法很快被应用于自然语言处理领域,取得了惊艳的成绩。直到今天,深度学习仍是学界广泛使用且证明有效的自然语言处理研究方法。
近年来,GPT、BERT、ELMO、XLNet等预训练模型很好地解决了深度学习模型在无标注数据上训练效果欠佳的问题,成为当前各类自然语言处理任务的核心技术(王海宁,2022)。
综上,赵京胜(2019)将自然语言处理的发展历程总结为萌芽期、快速发展期、低谷发展期和复苏融合期四个阶段。在人工智能的时代背景下,自然语言处理仍处于繁荣发展的复苏融合阶段,整体态势稳中向好。
3.2自然语言处理现阶段概述
目前,基于深度学习的自然语言处理依然是语言智能的关键。通过深度学习端到端的训练,自然语言处理的效率显著提高。此外,深度学习的出现使得自然语言处理脱离了原先在实验室中运用理论方式处理图片、文本任务的传统模式,具备了工业化应用的条件,相关技术、应用渗透到我国许多行业并取得良好成效(韩志恒,2020)。
随着大数据时代的到来,数据密集型科学范式成为共识,数据导向成为科学研究的重要特征。同样地,现阶段基于深度学习的自然语言处理需要大规模、高质量的数据进行训练学习,且表现出越来越依赖于数据驱动的方法的趋势,属于使用统计和概率计算以及机器学习的数据驱动领域(Otteretal.,2021)。宋一凡(2019)认为,由于语言工程、认知科学等自然语言处理方向主要局限于实验室,数据处理有望成为今后应用场景最多的一个方向,这很好地符合当前大数据环境下"数据+智能"的发展战略。
4自然语言处理的前沿进展
近年来,迎着人工智能的浪潮,自然语言处理成为学界研究热点,取得了许多高水平研究成果,实现了跨越式进步。根据性质,相关前沿进展可分为内容前沿、技术前沿、应用前沿、领域前沿四部分。
4.1自然语言处理的内容前沿
传统自然语言处理多针对使用范围广、使用人数多的英语、汉语等主流语言进行研究,其研究对象也基本集中在普通的文字内容。然而,随着网络的发展进步、世界的融合联系,原先的研究内容已无法满足新兴的交互需求。近年来,自然语言处理进一步扩充了研究内容,增加了对颜文字等新兴表情符号的研究,加强了对少数民族语言及其他语言的研究,更加重视对知识库、语料库等研究基础的建设,极大地丰富了自然语言处理的研究范畴。
4.1.1 表情符号研究
随着信息技术的快速发展,人类沟通交流的速度得以提升,手段也愈发丰富。由此,基于互联网环境的网络语言逐渐形成,其又以大量非言语的表情符号作为其重要特征。作为文本的补充,表情符号能够以象形方式生动地呈现、描摹表达者的神情与状态,目前已成为社交网络中不可或缺的内容组成。常见的表情符号包括Emoticon(颜文字)与Emoji(绘文字)两种。
Emoticon是一种利用字符的特定编排组合形成表情的象形语言符号,其直观形象,生动有趣,目前已发展为独立于ASCIIArt等多行符号拟图艺术的世界文化符号,并衍生出\长草颜文字"等众多系列表情,深受广大网友的喜爱。
Emoji是一种最先在日本无线通信中使用的视觉情感符号(见图1)。自苹果公司将Emoji加入iOS5后,这种表情符号开始席卷全球,目前已被Unicode编码采纳,广泛应用于社交网络,相关研究较Emoticon更为集中。
图 1: 绘文字(Emoji)
很多情况下,一个简单的Emoji可以代替冗长的文字完成表情达意,具有强大的信息传达能力。但杨暑东(2022)指出,在没有附加严格语义的情况下,Emoji可根据其上下文具有不同的含义和词性,为人际间和人机间沟通带来复杂性和不确定性。与自然语言文本类似,Emoji同样会存在反义、歧义等现象,发送Emoji的数量、组合、方式及语境等的不同都可能表达出不同的意思。如连续发送标签为"微笑"的Emoji常意为"我不理解",标签为"大拇指"的Emoji偶尔具有反讽意味。因此,研究Emoji等表情符号可以扩大自然语言处理研究的内容范畴,丰富现有研究成果,进一步提高语言分析效果。
目前,Emoji自然语言处理的关键是弱化非硬件、操作系统层面带来的后端偏差,采用偏差补偿策略进行相关处理。基于适当的开源Emoji语料库,研究人员多利用正则匹配进行语料清洗,利用统计方法进行分词后使用向量化模型进行特征提取。接着,根据不同的应用场景选择并构建合适的模型,再进行后续的训练及验证。其中,以Bi-GRU模型为代表的深度学习模型和以Emoji-词汇双模网络及Emoji共现网络为代表的社会网络模型在Emoji自然语言处理领域表现突出(杨暑东,2022;ChandraandPrasad,2021)。
4.1.2 语言种类丰富
美国《发现》月刊指出,目前英语是全球使用最广泛的语言,汉语是使用人数最多的语言。巨大的使用基数及比例使得大多自然语言处理研究都基于这两种语言开展。然而,由于每种语言都有可能存在单一语种使用者,其他民族语言的研究同样很重要。近年来,孟加拉语及藏语、维吾尔语等中国少数民族语言的研究取得进展。
与英语类似,孟加拉语属于印欧语系,其构词法也使用各种前缀和后缀表示关系,词汇同样有丰富的人称、时态和格的变化。尽管孟加拉语是全球第七大口语,但原先相关的自然语言处理研究却很少。近年来,研究人员使用经典方法和机器学习方法相结合的方式对孟加拉语文本、语音等内容进行信息提取、命名实体识别、解析、词性标注等基础工作,取得一定成果(Senetal.,2022)。
中国少数民族语言处理始于20世纪70年代末。其中,藏语、蒙古语及维吾尔语三种语言的发展态势良好。藏语在本领域的探索起步较早,研究机构众多、水平较高,目前已经涵盖了文字、词语、短语、句子、篇章等方面的语言处理,开发了信息检索、藏文网站舆情检测系统等应用领域。从2005年开始,多家机构致力于构建完备的蒙古语语料库。在此基础上,基于规则和统计的方法在蒙古语机器翻译领域应用广泛,蒙古语的语音识别及语音合成技术也在不断完善。维吾尔语的信息数据库资源丰富,研究人员近年来也在积极构建汉维平行语料库。维吾尔语自然语言处理在文本聚类、信息检索等方面均取得初步进展(Luetal.,2011)。
4.1.3知识库及语料库的研究
知识库是对词法分析、句法分析等有指导意义的数据库,包括词汇语义库,词法、句法规则库,常识库等。储备丰富的知识库可以很好地支持对自然语言文本的分析处理,其中以George A.Miller领导开发的WordNet和董振东父子创建的HowNet最具代表性(李生, 2013; 赵 京胜et al, 2019)。近期,Madotto等(2018)首次将具有记忆性质的Multi-Hop Attention Mechanisms与Pointer Network相结合,提出Mem2Seq通用神经生成模型,将知识库整合到端到端的 面向任务的对话系统中,在许多数据集上表现出非常先进的性能。
语料库是是存储实际使用中真实出现过的语言材料的数据库,包含大规模的语言数据。典型的语料库有UPenn树库、Brown语料库、LOB语料库等。孙茂松和周建设(2016)指出,训练基于深度神经网络的句法分析模型,需要大规模的句法标注语料库,否则无法得到鲁棒性良好的模型。此外,杨暑东(2022)认为,语料库选择的恰当与否直接关系着数据是否有偏差。因此,建设规模大、应用广的语料库成为当前自然语言处理研究的重要方向。近年来,我国建成并更新了全球汉语中介语语料库、HSK动态作文语料库等汉语语料库,极大地夯实了汉语自然语言处理的研究基础。
4.2自然语言处理的技术前沿
在科学技术的不断推动下,以人工智能为代表的新兴技术不断被引入到自然语言处理中并取得了显著成果。近年来,自然语言处理领域涌现出许多高度标准化的高性能模型。目前,自然语言处理中使用的主流模型有基于深度学习的模型和预训练模型两类(张宾etal.,2020)。
4.2.1 深度学习模型
在基于深度学习的自然语言处理模型中,我们通常将词表示为向量,将文本或语句表示为词的向量序列,通过处理向量单元完成对语言内容的分类及理解(蒋萍,2021)。其中,使用频度较高、性能表现较好的深度学习模型包括CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)及AttentionMechanism(自注意力机制)和Transformer(转换器)。
• CNN
CNN是一种前馈神经网络,其架构灵感来自于人类的视觉皮层,通过对局部输入序列进行卷积处理实现局部特征提取。当数据以低维的数据图表示时,CNN通过多层卷积和池化的方式将矩阵形式的语句或文档输入进行分类,完成关系提取、关系分类等基础任务(Torfietal.,2020)。经过训练,CNN能够识别特定的模式,且在感知文档局部和位置无关的模式非常重要的情况下性能良好,多用于高并发场景(Samantetal.,2022)。
•RNN
由于序列任务中当前计算会受到前面数据的影响,RNN被提出以解决输入序列存在信息关联的自然语言处理任务。RNN将隐藏层作为记忆单元,接收初始向量序列完成计算,并及时更新网络权值,最后将隐藏层的参数作为下一个时间步的输入,不断迭代(Torfietal.,2020)。经过训练,RNN能够检测有时间推移的模式,捕获语言文本的依赖性,挖掘出句子和文本结构间的词语关系。近年来,研究人员提出借助RNN表达时间的递归结构实现前后输入的密切关联,这对机器翻译的发展具有重要意义(叶符明,2021)。
• LSTM
考虑到不同时间步的不同信息的重要性不同,研究人员基于RNN,提出了变体LSTM。LSTM的递归节点由几个单独的神经元组成,节点间根据特定的处理目标进行相应连接。通过对隐含层进行跨越连接,LSTM能够在网络层数减少的情况下获得不同时间步的输入的长期依赖性。由此,重要的信息可以被保留,无用的信息可以被遗忘。LSTM很好地解决了普通RNN使用过程中存在的梯度消失和梯度爆炸问题,实现了对记忆内容的选择。
• Attention Mechanism & Transformer
在深度学习中,我们将生成定长向量的过程称为编码,将由向量生成变长文本的过程称为解码。Transformer就是一种先进的编解码器,而AttentionMechanism是一种对语句中的单词进行加权的算法,分为计算权重和加权求和两个步骤,其中权重被称为"注意力"。在Transformer模型中,许多带有注意力的编解码器相互堆叠,进行运算。AttentionMechanism的每一步不依赖前面的结果,同时能够实现长期记忆与重点记忆,在自然语言处理的文本分类、词汇预测等方面表现出色(Otteretal.,2021)。
此外,CapsNet(胶囊神经网络)的出现解决了CNN在池化过程中错过空间信息进而错误分类的问题,通过引入名为胶囊的神经元集合,实现从底层胶囊到高层胶囊的分类,该方法已成功应用到文本分类领域(Samantetal.,2022);RMN(残余神经网络)中跳过两层残留连接的方法被证实在语言建模上非常有效,且随着网络深度的增加可以进一步改善学习结果(Otteretal.,2021);GNN(图神经网络)根据普通文本的内在图结构,利用节点与边对文本单元及其间多种形式的关系进行表示与描述(Samantetal.,2022);GCN(图卷积神经网络)则是在GNN的基础上引入图卷积运算及图滤波器,进一步提取自然语言文本拓扑图的空间特征,在专业词汇多、文本富连接、标注数据少的语料场景下学习效果很好(熊晗,2021)。
4.2.2 预训练模型
随着强大的预训练表征的出现,一种先预训练,再调优的新的自然语言处理范式出现。通过先在大规模数据上进行预训练,再在任务领域的语料库上针对性地进行调优,预训练模型在许多测试实验中取得了目前最先进的性能。其中,以GPT和BERT最为广泛使用(数据分析与知识发现,2019)。
• GPT
基于Transformer基础模型,GPT构建了单向编码器,使用从左到右的学习方法表示自然语言创建的文本。GPT能够非常有效地将从开放领域学到的知识迁移到下游任务,具有良好的迁移性和扩展性。近年来,GPT模型得到了快速发展,优化更新后的GPT-2、GPT3均在保留原先网络结构的基础上,通过堆叠更多的Transformer实现模型扩张,获得了更好的泛化能力。其中,GPT-3使用高达45TB的数据进行训练,模型参数数量高达1750亿(王海宁,2022;王颖洁etal.,2021)。
• BERT
同样基于Transformer基础模型,BERT通过屏蔽语言建模任务进行训练,为文本中出现的每个单词提供上下文嵌入,双向处理并解释语言文本。BERT能够很好地理解语言信息内涵,在问题回答、情感分析等需要结合上下文理解的应用上表现出色。BERT还衍生出BART、VideoBERT等许多优化模型,极大地促进了自然语言处理的快速发展(Samantetal.,2022;王海宁,2022)。
此外,XLNet结合了GPT、BERT的概念,将Self-AttentionMechanism应用到模型中,使得语料上下文两侧的词汇都能被包含到模型中,以对词语位置不敏感的方式实现双向自回归(Samantetal.,2022);GRU是LSTM的一种变体,但相比LSTM少了输出门,参数更少,过拟合的风险低,目前被广泛应用在各种预测场景中,多与CNN、GCN等相结合(张晓,2021)。
4.2.3 其他
除深度学习模型与预训练模型得到切实使用,许多具有实现潜力的技术想法与思考也被大胆地提出。蒋萍(2021)认为,当前研究仍需要在多模态、生成、预训练和神经符号等方面进行探索,立足于开发新的神经网络模型;王海宁(2022)指出,更加轻量的预训练语言模型是符合未来低碳节能理念的重要发展方向;孙茂松和周建设(2016)认为,建设大规模深度学习计算模型平台、提高算力是自然语言处理发展的基础条件;李生(2013)认为,计算方法应实现由单机到多机分布计算网格计算直至云计算的转变,进一步实现计算跨越;神经网络模型的解释性及评价对比基准的演化发展也越来越受到关注(数据分析与知识发现,2019)。
4.3自然语言处理的应用前沿
自然语言处理技术有着良好的落地表现,应用场景非常广泛。目前自然语言处理已在机器翻译、人机对话、文本分类与总结、信息检索与提取、情感分析等方面广泛应用。
•机器翻译
机器翻译是指使用计算机把源语言转变为目标语言的过程,是自然语言处理的典型应用。神经机器翻译是目前最先进的翻译算法,其旨在通过模拟人脑对语句进行理解,构建语句的心理表征并将其转化为以另一种语言表示的语句。近年来,百度、谷歌等公司利用其庞大的用户数据,在机器翻译领域先后推出了性能优良的神经网络算法,翻译精度逐渐提高。此外,研究人员也尝试在小规模语料库及无监督条件下设计有效的神经机器翻译模型,以期达到更好的翻译效果(林莉,2020;Samantetal.,2022;孙茂松and周建设,2016)。
•人机对话
人机对话系统又被称为问答系统,是一种使机器理解人类自然语言且能与人类交互对话的智能系统。依托于深度学习,人机对话系统能够完成更细粒度的信息检索任务,寻找或推理出特定的答案,目前已广泛应用到智能手机的虚拟个人助手,代表性的有苹果公司的Siri和亚马逊的Alexa(杨暑东,2022;冯志伟,2012)。
•文本分类与总结
文本分类与生成同样是自然语言处理的经典应用。文本分类是指将输入的大量自由文本划分到预定义的类别中,以便后续组织分析。目前,基于梯度提升和神经网络的文本分类被广泛用于过滤垃圾邮件及分类投诉请求(Khuranaetal.,2022)。文本生成是指将数据转换为文本的过程。目前,随着GAN(生成对抗网络)和VAE(变分自动编码器)的引入,诗歌生成、笑话生成和故事生成等传统意义上较难的生成任务均取得了突破,相关算法正朝着更自然的输出方向发展(Otteretal.,2021)。
•情感分析
情感分析是一种基于源数据的高级推理,通过文本挖掘等手段提取出人们对产品、服务、事件等的情感倾向及所持态度,是自然语言处理领域最受关注的应用之一。目前,基于情感字典、机器学习及深度学习的多策略混合方法成为情感分析发展的重要趋势。情感分析技术可以自动分类并解释带有人类主观感情色彩的信息,被广泛用于分析用户态度及情感画像,在电子商务及心理治疗等方面有较大的市场和发展前景(王颖洁etal.,2021;Youngetal.,2018;Torfietal.,2020)。
•舆情监控
舆情监控是指对互联网上公众的言论和观点进行监视和预测,客观全面地掌握网络动态以做出正确的舆论引导。智能舆情监控是自然语言处理的综合应用,多通过自动抓取、文本分类、主题检测得到舆情信息标签,使用增量学习处理情感转移和新词问题,及时获取并分析舆情。在疫情防控工作中,舆情监控系统在检测健康宝故障及识别网络谣言等任务中取得显著成效(杨暑东,2022;王仲昊,2020)。
•个性化智能推荐
个性化智能推荐是一种应用广泛的信息过滤系统,多通过细化分析用户的浏览记录、评论反馈,整理归纳出用户感兴趣的产品、新闻等内容推送至其主页。智能推荐系统被广泛用于电子商务领域及新闻服务领域,在提升用户体验与粘性的同时为平台带来可观的收益(林莉,2020;赵园丁,2019)。
此外,自然语言处理还应用于社会计算、语句检查、关系推理等方面。社会计算采用互联网、大数据和机器学习等技术研究社会问题,寻找合适的方法进行决策(赵京胜etal.,2019);语句检查是基于已有的知识数据库内容对用户输入的文本信息进行合法性检查,找出拼写错误、语法错误、格式错误等潜在的问题;关系推理是对关系的逻辑性质进行演绎推理的过程,在GNN得到广泛使用后飞速发展(Liuetal.,2021)。
4.4自然语言处理的领域前沿
作为一门交叉边缘学科,自然语言处理在各领域已有的丰富研究基础上快速发展起来,其先进的研究成果也能够帮助其他领域解决相关难题。目前,许多自然语言处理的新兴应用已被引入到其他领域,这对学科融合及科技进步意义重大。
在材料领域,魏晓(2022)等借助知识图谱在领域知识学习、组织和推理上的优势,很好地完成了信息检索、材料类别鉴定等任务;在医学领域,美国国家医学图书馆通过开发专家系统以更好地从知识库中提取信息(Khuranaetal.,2022);在生物信息领域,研究人员根据自然语言处理模型实现了对肽链等生物结构的预测;在新闻领域,舆情监控系统极大地缓解了行业工作者在筛选、审核网络评论上的压力。
李生(2013)认为,信息技术要把握住感知、连通与计算三个要素,与商业、社会科学、管理科学、心理学、认知科学、生命科学、数学和物理学等多学科实现交叉融合,而自然语言处理有望成为学科融合的关键联络。
5 结语
语言智能是语言科学与人工智能深度融合的新兴前沿交叉领域,其基础理论与关键技术研究的突破对我国人工智能乃至科学技术的发展具有重要意义。作为语言智能发展的关键,自然语言处理的地位不言而喻。历经近百年的坎坷艰难,自然语言处理的发展充满机遇与挑战。通过介绍自然语言处理的基本内容、发展历程及前沿进展,可以看出目前自然语言处理取得了许多辉煌成就,也面临着许多亟待解决的难题。
随着信息科学技术的不断进步,自然语言处理有望成为现代化学科与技术的焦点,在更多的领域发挥更大的作用,深刻地影响人类的生活。相信在不久的将来,自然语言处理会有更美好的未来。
参考文献
Amirsina Torfi, Rouzbeh A. Shirvani, Yaser Keneshloo, Nader Tavvaf, and Edward A. 2020. Natural language processing advancements by deep learning: A survey. abs/2003.01200.
Andrea Madotto, Chien-Sheng Wu, and Pascale Fung. 2018. Mem2Seq: Effectively incorporating knowledge bases into end-to-end task-oriented dialog systems. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1468{1478, Melbourne, Australia, July. Association for Computational Linguistics.
D. Khurana, A. Koli, K. Khatter, and S. Singh. 2022. Natural language processing: state of the art, current trends and challenges. Multimed Tools Appl, pages 1{32.
D. W. Otter, J. R. Medina, and J. K. Kalita. 2021. A survey of the usages of deep learning for natural language processing. IEEE Trans Neural Netw Learn Syst, 32(2):604{624.
Liu Xiaochen, Su Yang, Xu Bingjie 2021. The Application of Graph Neural Network in Natural Language Processing and Computer Vision. 708-714.
Lu Qian, Zhao Xiaobing, Thongbay Sivilay 2011. Chinese Minority Languages Processing: State of the Art and Prospects. 236-239.
Marwan Omar, Soohyeon Choi, Daehun Nyang, and David Mohaisen. 2022. Robust natural language processing: Recent advances, challenges, and future directions. IEEE Access, 10:86038{86056.
Ovishake Sen, Mohtasim Fuad, Md Nazrul Islam, Jakaria Rabbi, Mehedi Masud, Md Kamrul Hasan, Md Abdul Awal, Awal Ahmed Fime, Md Tahmid Hasan Fuad, Delowar Sikder, and Md Akil Raihan Iftee. 2022. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods. IEEE Access, 10:38999{39044.
Projit Chandra and Upasana Prasad. Classification of emojis using artificial neural network and natural language processing. In 2021 8th International Conference on Computing for Sustainable Global Development (INDIACom), pages 205{212. IEEE.
Rahul Manohar Samant, Mrinal R. Bachute, Shilpa Gite, and Ketan Kotecha. 2022. Framework for deep learning-based language models using multi-task learning in natural language understanding: A systematic literature review and future directions. IEEE Access, 10:17078{17097.
Tom Young, Devamanyu Hazarika, Soujanya Poria, and Erik Cambria. 2018. Recent trends in deep learning based natural language processing [review article]. IEEE Computational Intelligence Magazine, 13(3):55{75.
方明之. 2019. 自然语言处理技术发展与未来科技传播. 11(06):143{144.
冯志伟.2006.当前自然语言处理发展的几个特点暨南大学华文学院学报.(01):34{40.
冯志伟.2012.自然语言问答系统的发展与现状外国语(上海外国语大学学报).35(06):2{16.
冯志伟.2021.自然语言处理的重要资源:\知识图谱"外语学刊.(05):1{9.
高源.2019.自然语言处理发展与应用概述中国新通信.21(02):117{118.
韩志恒.2020.浅析深度学习在自然语言处理nlp中的应用电子元器件与信息技术.4(11):46{47.
胡开宝,尚文博.2022.语言学与语言智能华东师范大学学报(哲学社会科学版).54(02):103{109+176.
黄河燕,颜永红,黄德根,余正涛,熊德意.2022.多语言计算前沿技术专题序言计算机科学.49(01):7{8.
蒋萍.2021.基于深度学习方面自然语言处理技术(nlp)的研究数字通信世界.(01):31{33.
李生.2013.自然语言处理的研究与发展燕山大学学报.37(05):377{384.
李佐文,梁国杰.2022.语言智能学科的内涵与建设路径外语电化教学.(05):88{93+117.
林莉.2020.人工智能时代背景下自然语言处理技术的发展电子世界.(22):24{25.
数据分析与知识发现.2019.从ACL2019年会看自然语言处理未来发展趋势数据分析与知识发现.
3(08):61.
宋一凡.2019.自然语言处理的发展历史与现状中国高新科技.(03):64{66.
孙茂松,周建设.2016.从机器翻译历程看自然语言处理研究的发展策略语言战略研究.1(06):12{18.
王海宁.2022.自然语言处理技术发展中兴通讯技术.28(02):59{64.
王颖洁,朱久祺,汪祖民,白凤波,弓箭.2021.自然语言处理在情感分析领域应用综述计算机应用.pages1{12.
魏晓,王晓鑫,陈永琪,张惠然.2022.基于自然语言处理的材料领域知识图谱构建方法上海大学学报(自然科学版).28(03):386{398.
熊晗.2021.图卷积神经网络在自然语言处理中的应用研究电子制作.(21):70{71+30.
杨暑东.2022.Emoji自然语言处理综述计算机应用与软件.39(09):11{20+44.
叶符明.2021.深度学习在自然语言处理nlp中的应用研究信息记录材料.22(11):148{149.
张宾,武斌,周晶,李慧超,王帅.2020.探究人工智能时代背景下自然语言处理技术的发展应用科技风. (23):84.
王刚张晓,丁云峰.2021.基于预训练gru-lightgbm的电力负荷预测.计算机系统应用,30(8):288.
王仲昊.2020.用于网络舆情分析的深度学习自然语言处理系统.硕士.
赵京胜,宋梦雪,高祥.2019.自然语言处理发展及应用综述信息技术与信息化.(07):142{145.
赵园丁.2019.浅谈人工智能时代背景下自然语言处理技术的发展应用办公自动化.24(10):63{64.
周建设,吕学强,史金生,张凯2017.语言智能研究渐成热点中国社会科学报.page003.