随笔分类 - pytorch学习笔记

pytorch 学习深度学习

leNet

摘要：course content 1. lenet 模型介绍 2. lenet 网络搭建 3. 运用lenet进行图像识别 fashion mnist数据集 Convolutional Neural Networks 使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式阅读全文

posted @ 2020-02-17 20:24 hichens 阅读(491) 评论(0) 推荐(0) 编辑

注意力机制和Seq2seq模型

摘要：注意力机制在“编码器—解码器（seq2seq）”⼀节⾥，解码器在各个时间步依赖相同的背景变量（context vector）来获取输⼊序列信息。当编码器为循环神经⽹络时，背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码，然后将其传递给解码器以生成目标序列。然而这种结构存在着问阅读全文

posted @ 2020-02-16 16:28 hichens 阅读(343) 评论(0) 推荐(0) 编辑

ModernRNN

摘要：GRU RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系 RNN :

H_{t} = ϕ (X_{t} W_{x h} + H_{t 1} W_{h h} + b_{h})

$H_{t} = ϕ(X_{t}W_{xh} + H_{t 1}W_{hh} + b_{h})$ GRU : $$ R_{t} = σ(X_tW_{xr} + 阅读全文

posted @ 2020-02-16 16:26 hichens 阅读(227) 评论(0) 推荐(0) 编辑

Transformer

摘要：Transformer 在之前的章节中，我们已经介绍了主流的神经网络架构如卷积神经网络（CNNs）和循环神经网络（RNNs）。让我们进行一些回顾： CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。为了整合CNN和RNN 阅读全文

posted @ 2020-02-16 16:25 hichens 阅读(671) 评论(0) 推荐(0) 编辑

机器翻译

摘要：机器翻译和数据集机器翻译（MT）：将一段文本从一种语言自动翻译为另一种语言，用神经网络解决这个问题通常称为神经机器翻译（NMT）。主要特征：输出是单词序列而不是单个单词。输出序列的长度可能与源序列的长度不同。 ['fraeng6506', 'd2l9528', 'd2l6239'] 数据预处理阅读全文

posted @ 2020-02-16 16:23 hichens 阅读(929) 评论(0) 推荐(0) 编辑

过拟合、欠拟合及其解决方案

摘要：过拟合、欠拟合及其解决方案 1. 过拟合、欠拟合的概念 2. 权重衰减 3. 丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出阅读全文

posted @ 2020-02-15 22:18 hichens 阅读(4766) 评论(0) 推荐(0) 编辑

梯度消失、梯度爆炸以及Kaggle房价预测

摘要：梯度消失、梯度爆炸以及Kaggle房价预测 1. 梯度消失和梯度爆炸 2. 考虑到环境因素的其他问题 3. Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一阅读全文

posted @ 2020-02-15 21:50 hichens 阅读(292) 评论(0) 推荐(0) 编辑

循环神经网络

摘要：循环神经网络本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量

H

$H$ ，用

H_{t}

$H_{t}$ 表示

H

$H$ 在时间步

t

$t$ 的值。

H_{t}

$H_{t}$ 的计算基于

X_{t}

$X_{t}$ 和

H_{t 1}

$H_{t 1}$ ，可以认为$H 阅读全文

posted @ 2020-02-14 20:33 hichens 阅读(432) 评论(0) 推荐(0) 编辑

语言模型

摘要：语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为

T

$T$ 的词的序列

w_{1}, w_{2}, \dots, w_{T}

$w_1, w_2, \ldots, w_T$ ，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：

P (w_{1}, w_{2}, \dots, w_{T}) .

$P(w_1, w_2, \ldots, w_T).$ 本节我们介绍基于统计的语言模型，主要是

n

$n$ 阅读全文

posted @ 2020-02-14 20:32 hichens 阅读(446) 评论(0) 推荐(0) 编辑

文本预处理

摘要：文本预处理文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤： 1. 读入文本 2. 分词 3. 建立字典，将每个词映射到一个唯一的索引（index） 4. 将文本从词的序列转换为索引的序列，方便输入模型读入文本我们用一部英文小说阅读全文

posted @ 2020-02-14 20:20 hichens 阅读(1445) 评论(0) 推荐(0) 编辑

多层感知机

摘要：多层感知机 1. 多层感知机的基本知识 2. 使用多层感知机图像分类的从零开始的实现 3. 使用pytorch的简洁实现多层感知机的基本知识深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。隐藏层下图展示了阅读全文

posted @ 2020-02-14 19:58 hichens 阅读(3399) 评论(0) 推荐(0) 编辑

softmax和分类模型

摘要：softmax和分类模型内容包含： 1. softmax回归的基本概念 2. 如何获取Fashion MNIST数据集和读取数据 3. softmax回归模型的从零开始实现，实现一个对Fashion MNIST训练集中的图像数据进行分类的模型 4. 使用pytorch重新实现softmax回归模型阅读全文

posted @ 2020-02-14 19:21 hichens 阅读(1121) 评论(1) 推荐(1) 编辑

线性回归

摘要：线性回归主要内容包括： 1. 线性回归的基本要素 2. 线性回归模型从零开始的实现 3. 线性回归模型使用pytorch的简洁实现线性回归的基本要素模型为了简单起见，这里我们假设价格只取决于房屋状况的两个因素，即面积（平方米）和房龄（年）。接下来我们希望探索价格与这两个因素的具体关系。线性回阅读全文

posted @ 2020-02-14 09:53 hichens 阅读(275) 评论(0) 推荐(0) 编辑

公告

昵称： hichens
园龄： 6年
粉丝： 58
关注： 11

+加关注

Hichens

人生代代无穷已，江月年年只相似。

《春江花月夜》 - 唐代 - 张若虚

昵称： hichens
园龄： 6年
粉丝： 58
关注： 11

+加关注

2025年3月

日

一

二

三

四

五

六

hichens

随笔分类 - pytorch学习笔记

公告

Hichens

人生代代无穷已，江月年年只相似。

《春江花月夜》 - 唐代 - 张若虚

搜索

常用链接

最新随笔

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论