微信扫一扫打赏支持

《python深度学习》笔记---6、文本和序列

《python深度学习》笔记---6、文本和序列

一、总结

一句话总结:

循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet):可以用来处理文本和序列的问题。

 

 

1、用于处理序列的两种基本的深度学习算法分别是 什么?

循环神经网络(recurrent neural network)和一维卷积神经网络(1D convnet):后者是上一章介绍的二维卷积神经网络的 一维版本。

 

 

2、文本和序列相关的应用?

文档分类和时间序列分类:比如识别文章的主题或书的作者;
序列到序列的学习:比如将英语翻译成法语;
情感分析:比如将推文或电影评论的情感划分为正面或负面;
时间序列预测:比如根据某地最近的天气数据来预测未来天气。


时间序列对比:比如估测两个文档或两支股票行情的相关程度;

 

3、本章处理 文本和序列 深度模型的缺陷?

【没有真正理解】:本章的这些深度学习模型都没有像人类一样真正地理解文本,而只是映射出书面语言的统计结 构,但这足以解决许多简单的文本任务。

 

 

4、深度学习用于自然语言处理?

【将模式识别应用于单词、 句子和段落】:深度学习用于自然语言处理是将模式识别应用于单词、 句子和段落,这与计算机视觉是将模式识别应用于像素大致相同。

 

 

5、为什么需要 文本向量化(vectorize)?

【只能处理数值张量】:与其他所有神经网络一样,深度学习模型不会接收原始文本作为输入,它只能处理数值张量。 文本向量化(vectorize)是指将文本转换为数值张量的过程。

 

 

6、文本向量化(vectorize)的多种方式?

将文本分割为单词:并将每个单词转换为一个向量。
将文本分割为字符:并将每个字符转换为一个向量。
提取单词或字符的n-gram:并将每个n-gram 转换为一个向量。n-gram 是多个连续单词 或字符的集合(n-gram 之间可重叠)。

 

 

7、分词(tokenization)?

【将文本分解成标记的过程】:将文本分解而成的单元(单词、字符或n-gram)叫作标记(token),将文本分解成标记的 过程叫作分词(tokenization)。

 

 

8、文本向量化过程?

【应用某种分词方案】:所有文本向量化过程都是应用某种分词方案,然后将数值向量 与生成的标记相关联。这些向量组合成序列张量,被输入到深度神经网络中

 

 

9、将向量与标记相关联的方法有很多种?

对标记做one-hot 编码(one-hot encoding)与标记嵌入[token embedding,通常只用于单词,叫作词嵌入(word embedding)]。

 

 

 

二、6、文本和序列

博客对应课程的视频位置:

 

 

 
posted @ 2020-10-12 23:23  范仁义  阅读(193)  评论(0编辑  收藏  举报