自然语言处理学习笔记-lecture1-绪论
基本概念
- 语言是个体之间由于沟通需要而制定的指令。
- 自然语言:人类之间用于沟通交流的语言。
自然语言的特点
- 线性:自然语言呈现为一种线性的符号序列。
- 层次性:自然语言内部存在层次结构。
- 歧义性:同一个自然语言句子存在多种不同的理解。
- 演化性:自然语言随着时代不断演化。
典型任务
中文分词
- 输入:一段不带空格的汉语文本。
- 输出:以空格隔开词语的汉语文本。
- 示例程序:示例程序
词性标注
- 输入:给定一个词语的序列。
- 输出:输出一个对应的词性的序列。
- 示例程序:示例程序
文本分类
- 输入:一段文本
- 输出:该文本的类别。
- 示例程序:示例程序
语言模型
语法改错
- 输入:一段可能包含语法错误的文本。
- 输出:识别出文本中的语法错误并进行修改。
- 示例程序:示例程序
句法分析
拼音输入法
- 输入:拼音符号的序列
- 输出:汉字序列
- 示例程序:示例程序
情感分析
- 输入:一段自然语言文本。
- 输出:情感的类别(如正面、中性、负面)
- 示例程序:添加链接描述
语义角色标注
- 输入:一个自然语言句子。
- 输出:标出句子的谓语及相关语义角色。
- 示例程序:示例程序
语义分析
- 输入:一个自然语言处理句子
- 输出:该句子的语义表示形式
- 示例程序:示例程序
指代消解
- 输入:一段自然语言文本
- 输出:该文本中代词所指向的名词
- 示例程序:示例程序
机器翻译
- 输入:一段源语言文本
- 输出:一段目标语言文本
- 示例程序:示例程序
文本摘要
- 输入:一段自然语言长文本。
- 输出:一段能概括长文本核心意思的短文本。
- 示例程序:示例程序
对联生成
- 输入:对联的上联
- 输出:对联的下联以及横批
- 示例程序:示例程序
诗词生成
- 输入:诗词的关键词
- 输出:五绝、七绝、律诗或者词
- 示例程序:示例程序
问答系统
- 输入:一个自然语言问题。
- 输出:该问题的答案。
- 示例程序:示例程序
对话系统
- 输入:一个自然语言句子
- 输出:另一个自然语言句子作为回复
- 示例程序:示例程序
图像标题生成
- 输入:一张图像
- 输出:一个自然语言句子,对该图像的内容进行描述。
- 示例程序:示例程序
发展历史
- 1943:Warren McCulloch与Walter Pitts提出神经网络。
- 1949:Warren Weaver提出利用计算机自动翻译人类语言。
- 1950:Alan Turing提出“图灵测试”检验机器是否具备智能。
- 1955:Noam Chomsky提出形式语言体系,用数学描述语言。
- 1957:Frank Rosenblatt提出了感知机,推动了神经网络的发展。
- 1964:Joseph Weizenbaum研制聊天机器人ELIZA。
- 1965:Edward Feigenbaum提出专家系统DENDRAL。
- 1966:Leonard Baum和Lloyd Welch提出隐马尔科夫模型。
- 1970:CYK算法被提出并广泛用于上下文无关语言的分析。
- 1974:Paul Werbos为神经网络提出后向传播算法。
- 1984:Douglas Lenat提出了常识知识库Cyc。
- 1989:IBM公司提出著名的统计机器翻译IBM模型。
- 1993:宾夕法尼亚大学推出宾州树库,对句法分析研究起到极大推动作用。
- 1995:Vladimir Vapnik提出了支持向量机。
- 1996:Adwait Ratnaparkhi将最大熵模型引入自然语言处理
- 2001:Tim Berners-Lee提出语义网。
- 2003:Yoshua Bengio将分布式表示用于语言模型。
- 2006:Geoffrey Hinton引领了深度学习的兴起。
- 2011:IBM公司研制的“沃森”系统在知识问答任务中获胜。
- 2012:Google公司推出了知识图谱并在搜索引擎中使用。
- 2013:Google公司推出word2vec模型。
- 2014:Yoshua Bengio将注意力机制引入自然语言处理。
- 2017:Google公司提出Transformer模型。
- 2018:Google公司提出BERT预训练语言模型。
小结
-
理性主义方法和经验主义方法交相辉映,齐头并进
– 理性主义:形式文法、专家系统、知识图谱
– 经验主义:隐马可夫模型、最大熵模型、神经网络 -
当前挑战
– 模型:过于依赖人工设计。
– 数据:标注数据严重不足。
– 训练:训练成本过于高昂。
– 推断:难以保证可靠可信。
相关资源
学术机构
- Association for Computational Linguistics
– 创建时间:1962年
– 机构网站:https://www.aclweb.org/
– 自然语言处理领域影响力最大的国际学术机构。 - 中国中文信息学会
– 创建时间:1981年
– 期刊网站:http://www.cipsc.org.cn/
– 自然语言处理领域影响力最大的国内学术机构。
学术期刊
- Computational Linguistics
– 创建时间:1974年
– 期刊网站:https://www.mitpressjournals.org/loi/coli
– 自然语言处理领域传统上最好的国际期刊。 - Transactions of the Association for Computaional Linguistcs
– 创建时间:2013年
– 期刊网站:https://transacl.org/index.php/tacl
– 自然语言处理领域广受好评的顶级国际期刊。
学术会议
- ACL:影响力最大,截稿时间一般在1月或2月。
- EMNLP:偏重经验主义方法,截稿时间一般在5月。
- NAACL:面向北美地区,截稿时间一般在11月。
- AACL:面向亚太地区,截稿时间一般在6月。
- COLING:传统的三大会议之一,截稿时间一般在5月。
- IJCAI:人工智能会议,截稿时间一般在1月。
- AAAI:人工智能会议,截稿时间一般在9月。
- ICLR:机器学习会议,截稿时间一般在9月。
- NeurIPS:机器学习会议,截稿时间一般在6月。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异