《python深度学习》笔记---6、文本和序列

一、总结

一句话总结：

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：可以用来处理文本和序列的问题。

1、用于处理序列的两种基本的深度学习算法分别是什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的一维版本。

2、文本和序列相关的应用？

文档分类和时间序列分类：比如识别文章的主题或书的作者；

序列到序列的学习：比如将英语翻译成法语；

情感分析：比如将推文或电影评论的情感划分为正面或负面；

时间序列预测：比如根据某地最近的天气数据来预测未来天气。

时间序列对比：比如估测两个文档或两支股票行情的相关程度；

3、本章处理文本和序列深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结构，但这足以解决许多简单的文本任务。

4、深度学习用于自然语言处理？

【将模式识别应用于单词、句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。

6、文本向量化（vectorize）的多种方式？

将文本分割为单词：并将每个单词转换为一个向量。

将文本分割为字符：并将每个字符转换为一个向量。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合（n-gram 之间可重叠）。

7、分词（tokenization）？

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的过程叫作分词（tokenization）。

8、文本向量化过程？

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中

9、将向量与标记相关联的方法有很多种？

对标记做one-hot 编码（one-hot encoding）与标记嵌入［token embedding，通常只用于单词，叫作词嵌入（word embedding）］。

二、6、文本和序列

博客对应课程的视频位置：

posted @ 2020-10-12 23:23 范仁义阅读(241) 评论(0) 收藏举报

刷新页面返回顶部

范仁义

在校每年国奖、每年专业第一，加拿大留学，先后工作于华东师范大学和香港教育大学

《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

一、总结

一句话总结：

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：可以用来处理文本和序列的问题。

1、用于处理序列的两种基本的深度学习算法分别是什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的一维版本。

2、文本和序列相关的应用？

文档分类和时间序列分类：比如识别文章的主题或书的作者；

序列到序列的学习：比如将英语翻译成法语；

情感分析：比如将推文或电影评论的情感划分为正面或负面；

时间序列预测：比如根据某地最近的天气数据来预测未来天气。

3、本章处理文本和序列深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结构，但这足以解决许多简单的文本任务。

4、深度学习用于自然语言处理？

【将模式识别应用于单词、句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。

6、文本向量化（vectorize）的多种方式？

将文本分割为单词：并将每个单词转换为一个向量。

将文本分割为字符：并将每个字符转换为一个向量。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合（n-gram 之间可重叠）。

7、分词（tokenization）？

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的过程叫作分词（tokenization）。

8、文本向量化过程？

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中

9、将向量与标记相关联的方法有很多种？

对标记做one-hot 编码（one-hot encoding）与标记嵌入［token embedding，通常只用于单词，叫作词嵌入（word embedding）］。

二、6、文本和序列

作者相关推荐

公告

范仁义

在校每年国奖、每年专业第一，加拿大留学，先后工作于华东师范大学和香港教育大学

《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

一、总结

一句话总结：

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：可以用来处理文本和序列的问题。

1、用于处理序列的两种基本的深度学习算法分别是 什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的 一维版本。

2、文本和序列相关的应用？

文档分类和时间序列分类：比如识别文章的主题或书的作者；

序列到序列的学习：比如将英语翻译成法语；

情感分析：比如将推文或电影评论的情感划分为正面或负面；

时间序列预测：比如根据某地最近的天气数据来预测未来天气。

3、本章处理 文本和序列 深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结 构，但这足以解决许多简单的文本任务。

4、深度学习用于自然语言处理？

【将模式识别应用于单词、 句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、 句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要 文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。 文本向量化（vectorize）是指将文本转换为数值张量的过程。

6、文本向量化（vectorize）的多种方式？

将文本分割为单词：并将每个单词转换为一个向量。

将文本分割为字符：并将每个字符转换为一个向量。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词 或字符的集合（n-gram 之间可重叠）。

7、分词（tokenization）？

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的 过程叫作分词（tokenization）。

8、文本向量化过程？

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量 与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中

9、将向量与标记相关联的方法有很多种？

对标记做one-hot 编码（one-hot encoding）与标记嵌入［token embedding，通常只用于单词，叫作词嵌入（word embedding）］。

二、6、文本和序列

公告

1、用于处理序列的两种基本的深度学习算法分别是什么？

循环神经网络（recurrent neural network）和一维卷积神经网络（1D convnet）：后者是上一章介绍的二维卷积神经网络的一维版本。

3、本章处理文本和序列深度模型的缺陷？

【没有真正理解】：本章的这些深度学习模型都没有像人类一样真正地理解文本，而只是映射出书面语言的统计结构，但这足以解决许多简单的文本任务。

【将模式识别应用于单词、句子和段落】：深度学习用于自然语言处理是将模式识别应用于单词、句子和段落，这与计算机视觉是将模式识别应用于像素大致相同。

5、为什么需要文本向量化（vectorize）？

【只能处理数值张量】：与其他所有神经网络一样，深度学习模型不会接收原始文本作为输入，它只能处理数值张量。文本向量化（vectorize）是指将文本转换为数值张量的过程。

提取单词或字符的n-gram：并将每个n-gram 转换为一个向量。n-gram 是多个连续单词或字符的集合（n-gram 之间可重叠）。

【将文本分解成标记的过程】：将文本分解而成的单元（单词、字符或n-gram）叫作标记（token），将文本分解成标记的过程叫作分词（tokenization）。

【应用某种分词方案】：所有文本向量化过程都是应用某种分词方案，然后将数值向量与生成的标记相关联。这些向量组合成序列张量，被输入到深度神经网络中