自然语言处理概述

1   自然语言的特点

线性:⾃然语⾔呈现为⼀种线性的符号序列。

层次性:⾃然语⾔内部存在层次结构。

歧义性:同⼀个⾃然语⾔句⼦存在多种不同的理解。

演化性:⾃然语⾔随着时代不断演化。

 

2   自然语言的典型任务

2.1  中文分词

输入:⼀段不带空格的汉语⽂本。

输出:以空格隔开词语的汉语⽂本。

高效的中文词法分析工具包:THULAC

2.2  词性标注

输入:词语的序列。

输出:对应的词性序列。

也可以使用THULAC工具分析

2.3  文本分类

输入:一段文本

输出:该文本的类别

常用工具:languagetech

2.4  语言模型

输入:词语序列。

输出:预测下一个词。

2.5  语法改错

输入:一段可能包含语法错误的文本。

输出:识别出文本中的语法错误并进行修改。

常用工具:gingersoftware

2.6  句法分析

输入:一个自然语言句子。

输出:句子的句法结构(短语结构或依存结构)。

2.7  拼音输入法

输入:拼音符号的序列。

输出:汉字序列。

2.8  情感分析

输入:自然语言文本

输出:情感的类别。

2.9  语义角色标注

输入:自然语言句子

输出:标注句子的谓语以及相关语义角色

2.10  语义分析

输入:自然语言句子。

输出:该句子的语义表示形式。

2.11  指代消解

输入:自然语言文本。

输出:文本中代词所指的角色。

2.12  机器翻译

输入:一段源语言文本。

输出:一段目标语言文本。

2.13  文本摘要

输入:一段自然语言长文本。

输出:一段能概括长文本核心意思的短文本。

常用工具:languagetech

2.14  对联生成

输入:对联的上联

输出:对联的下联以及横批

2.15  诗词生成

输入:诗句的关键词。

输出:五绝,七绝,律诗或者词。

2.16  问答系统

输入:一个自然语言问题。

输出:问题的答案。

2.17  对话系统

输入:一个自然语言句子。

输出:另一个自然语言句子作为回复。

2.18  图像标题生成

输入:一张图像。

输出:一个自然语言句子,对该图像内容的描述。

自然语言处理发展小结

理性主义方法和经验主义方法齐头并进。

理性主义:形式文法,专家系统,知识图谱。

经验主义:隐马尔科夫模型,最大熵模型,神经网路。

 

自然语言处理存在的挑战

模型:过于依赖人工设计。

数据:标注数据严重不足。

训练:训练成本过于高昂。

推断:难以保证可靠可信。

 

 

posted @   Laplace蒜子  阅读(34)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
点击右上角即可分享
微信分享提示