自然语言处理学习笔记-lecture1-绪论

基本概念

语言是个体之间由于沟通需要而制定的指令。
自然语言:人类之间用于沟通交流的语言。

自然语言的特点

线性:自然语言呈现为一种线性的符号序列。
层次性:自然语言内部存在层次结构。
歧义性:同一个自然语言句子存在多种不同的理解。
演化性:自然语言随着时代不断演化。

典型任务

中文分词

输入:一段不带空格的汉语文本。
输出:以空格隔开词语的汉语文本。
示例程序：示例程序

词性标注

输入:给定一个词语的序列。
输出:输出一个对应的词性的序列。
示例程序：示例程序

文本分类

输入:一段文本
输出:该文本的类别。
示例程序：示例程序

语言模型

输入:给定一个词语序列
输出:预测下一个词
示例程序：示例程序1 示例程序2

语法改错

输入:一段可能包含语法错误的文本。
输出:识别出文本中的语法错误并进行修改。
示例程序：示例程序

句法分析

输入:一个自然语言句子
输出:句子的句法结构(短语结构或依存结构)
示例程序：示例程序1 示例程序2

拼音输入法

输入:拼音符号的序列
输出:汉字序列
示例程序：示例程序

情感分析

输入:一段自然语言文本。
输出:情感的类别(如正面、中性、负面)
示例程序：添加链接描述

语义角色标注

输入:一个自然语言句子。
输出:标出句子的谓语及相关语义角色。
示例程序：示例程序

语义分析

输入:一个自然语言处理句子
输出:该句子的语义表示形式
示例程序：示例程序

指代消解

输入:一段自然语言文本
输出:该文本中代词所指向的名词
示例程序：示例程序

机器翻译

输入:一段源语言文本
输出:一段目标语言文本
示例程序：示例程序

文本摘要

输入:一段自然语言长文本。
输出:一段能概括长文本核心意思的短文本。
示例程序：示例程序

对联生成

输入:对联的上联
输出:对联的下联以及横批
示例程序：示例程序

诗词生成

输入:诗词的关键词
输出:五绝、七绝、律诗或者词
示例程序：示例程序

问答系统

输入:一个自然语言问题。
输出:该问题的答案。
示例程序：示例程序

对话系统

输入:一个自然语言句子
输出:另一个自然语言句子作为回复
示例程序：示例程序

图像标题生成

输入:一张图像
输出:一个自然语言句子，对该图像的内容进行描述。
示例程序：示例程序

发展历史

1943：Warren McCulloch与Walter Pitts提出神经网络。
1949：Warren Weaver提出利用计算机自动翻译人类语言。
1950：Alan Turing提出“图灵测试”检验机器是否具备智能。
1955：Noam Chomsky提出形式语言体系，用数学描述语言。
1957：Frank Rosenblatt提出了感知机，推动了神经网络的发展。
1964：Joseph Weizenbaum研制聊天机器人ELIZA。
1965：Edward Feigenbaum提出专家系统DENDRAL。
1966：Leonard Baum和Lloyd Welch提出隐马尔科夫模型。
1970：CYK算法被提出并广泛用于上下文无关语言的分析。
1974：Paul Werbos为神经网络提出后向传播算法。
1984：Douglas Lenat提出了常识知识库Cyc。
1989：IBM公司提出著名的统计机器翻译IBM模型。
1993：宾夕法尼亚大学推出宾州树库，对句法分析研究起到极大推动作用。
1995：Vladimir Vapnik提出了支持向量机。
1996：Adwait Ratnaparkhi将最大熵模型引入自然语言处理
2001：Tim Berners-Lee提出语义网。
2003：Yoshua Bengio将分布式表示用于语言模型。
2006：Geoffrey Hinton引领了深度学习的兴起。
2011：IBM公司研制的“沃森”系统在知识问答任务中获胜。
2012：Google公司推出了知识图谱并在搜索引擎中使用。
2013：Google公司推出word2vec模型。
2014：Yoshua Bengio将注意力机制引入自然语言处理。
2017：Google公司提出Transformer模型。
2018：Google公司提出BERT预训练语言模型。

小结

理性主义方法和经验主义方法交相辉映，齐头并进
– 理性主义:形式文法、专家系统、知识图谱
– 经验主义:隐马可夫模型、最大熵模型、神经网络
当前挑战
– 模型:过于依赖人工设计。
– 数据:标注数据严重不足。
– 训练:训练成本过于高昂。
– 推断:难以保证可靠可信。

相关资源

学术机构

Association for Computational Linguistics
– 创建时间:1962年
– 机构网站:https://www.aclweb.org/
– 自然语言处理领域影响力最大的国际学术机构。
中国中文信息学会
– 创建时间:1981年
– 期刊网站:http://www.cipsc.org.cn/
– 自然语言处理领域影响力最大的国内学术机构。

学术期刊

Computational Linguistics
– 创建时间:1974年
– 期刊网站:https://www.mitpressjournals.org/loi/coli
– 自然语言处理领域传统上最好的国际期刊。
Transactions of the Association for Computaional Linguistcs
– 创建时间：2013年
– 期刊网站:https://transacl.org/index.php/tacl
– 自然语言处理领域广受好评的顶级国际期刊。

学术会议

ACL:影响力最大，截稿时间一般在1月或2月。
EMNLP:偏重经验主义方法，截稿时间一般在5月。
NAACL:面向北美地区，截稿时间一般在11月。
AACL:面向亚太地区，截稿时间一般在6月。
COLING:传统的三大会议之一，截稿时间一般在5月。
IJCAI:人工智能会议，截稿时间一般在1月。
AAAI:人工智能会议，截稿时间一般在9月。
ICLR:机器学习会议，截稿时间一般在9月。
NeurIPS:机器学习会议，截稿时间一般在6月。

posted @ 2022-09-10 20:34 eryo 阅读(132) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 自然语言处理学习笔记-lecture09-篇章分析

· 自然语言处理学习笔记-lecture08-语义分析

· 自然语言处理概述

· 学习大致路线

· NLP之引言

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期（2025年3.1-3.9）
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异

公告

昵称： eryo
园龄： 5年11个月
粉丝： 0
关注： 7

+加关注

2025年3月

日

一

二

三

四

五

六

自然语言处理学习笔记-lecture1-绪论

基本概念

自然语言的特点

典型任务

中文分词

词性标注

文本分类

语言模型

语法改错

句法分析

拼音输入法

情感分析

语义角色标注

语义分析

指代消解

机器翻译

文本摘要

对联生成

诗词生成

问答系统

对话系统

图像标题生成

发展历史

小结

相关资源

学术机构

学术期刊

学术会议

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜