随笔分类 - pytorch学习笔记
pytorch 学习 深度学习
摘要:course content 1. lenet 模型介绍 2. lenet 网络搭建 3. 运用lenet进行图像识别 fashion mnist数据集 Convolutional Neural Networks 使用全连接层的局限性: 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式
阅读全文
摘要:注意力机制 在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问
阅读全文
摘要:GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN : GRU : $$ R_{t} = σ(X_tW_{xr} +
阅读全文
摘要:Transformer 在之前的章节中,我们已经介绍了主流的神经网络架构如卷积神经网络(CNNs)和循环神经网络(RNNs)。让我们进行一些回顾: CNNs 易于并行化,却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖,但是却难以实现并行化处理序列。 为了整合CNN和RNN
阅读全文
摘要:机器翻译和数据集 机器翻译(MT):将一段文本从一种语言自动翻译为另一种语言,用神经网络解决这个问题通常称为神经机器翻译(NMT)。 主要特征:输出是单词序列而不是单个单词。 输出序列的长度可能与源序列的长度不同。 ['fraeng6506', 'd2l9528', 'd2l6239'] 数据预处理
阅读全文
摘要:过拟合、欠拟合及其解决方案 1. 过拟合、欠拟合的概念 2. 权重衰减 3. 丢弃法 模型选择、过拟合和欠拟合 训练误差和泛化误差 在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出
阅读全文
摘要:梯度消失、梯度爆炸以及Kaggle房价预测 1. 梯度消失和梯度爆炸 2. 考虑到环境因素的其他问题 3. Kaggle房价预测 梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的数值稳定性容易变差。 假设一
阅读全文
摘要:循环神经网络 本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量,用表示在时间步的值。的计算基于和,可以认为$H
阅读全文
摘要:文本预处理 文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 1. 读入文本 2. 分词 3. 建立字典,将每个词映射到一个唯一的索引(index) 4. 将文本从词的序列转换为索引的序列,方便输入模型 读入文本 我们用一部英文小说
阅读全文
摘要:多层感知机 1. 多层感知机的基本知识 2. 使用多层感知机图像分类的从零开始的实现 3. 使用pytorch的简洁实现 多层感知机的基本知识 深度学习主要关注多层模型。在这里,我们将以多层感知机(multilayer perceptron,MLP)为例,介绍多层神经网络的概念。 隐藏层 下图展示了
阅读全文
摘要:softmax和分类模型 内容包含: 1. softmax回归的基本概念 2. 如何获取Fashion MNIST数据集和读取数据 3. softmax回归模型的从零开始实现,实现一个对Fashion MNIST训练集中的图像数据进行分类的模型 4. 使用pytorch重新实现softmax回归模型
阅读全文
摘要:线性回归 主要内容包括: 1. 线性回归的基本要素 2. 线性回归模型从零开始的实现 3. 线性回归模型使用pytorch的简洁实现 线性回归的基本要素 模型 为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回
阅读全文