02 2021 档案
摘要:卷积神经网络(LeNet) 多层感知机构成的全连接层对Fashion-MNIST数据集中的图像进行分类。每张图像高和宽均是28像素。我们将图像中的像素逐行展开,得到长度为784的向量,并输入进全连接层中。然而,这种分类方法有一定的局限性。 图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模
阅读全文
摘要:池化层 但实际图像里,我们感兴趣的物体不会总出现在固定位置:即使我们连续拍摄同一个物体也极有可能出现像素位置上的偏移。这会导致同一个边缘对应的输出可能出现在卷积输出Y中的不同位置,进而对后面的模式识别造成不便。 在本节中介绍池化(pooling)层,它的提出是为了缓解卷积层对位置的过度敏感性。 二维
阅读全文
摘要:多输入通道和多输出通道 前面两节里用到的输入和输出都是二维数组,但真实数据的维度经常更高。例如,彩色图像在高和宽2个维度外还有RGB(红、绿、蓝)3个颜色通道。假设彩色图像的高和宽分别是$h$和$w$(像素),那么它可以表示为一个$3\times h\times w$的多维数组 将大小为3的这一维称
阅读全文
摘要:填充和步幅 假设输入形状是$n_h\times n_w$,卷积核窗口形状是$k_h\times k_w$,那么输出形状将会是 \((n_h-k_h+1) \times (n_w-k_w+1).\) 卷积层的输出形状由输入形状和卷积核窗口形状决定。 填充 填充(padding)是指在输入高和宽的两侧填
阅读全文
摘要:javaweb html html文件的书写规范 <html> 表示整个html页面的开始 <head> 头信息 <title>标题</title> </head> <body> 页面主体内容 </body> <\html> 表示整个html页面的结束 html标签介绍 标签的格式: <标签名>封装
阅读全文
摘要:P2827 [NOIP2016 提高组] 蚯蚓 P2827|ac133 85 pts 看到题的思路就是这里每次取最大值,可以使用优先队列大根堆维护每次的最大值,还有一个操作就是每次队列中除去最大元素,其他元素都要加上一个$q$,那么这里就是关键的两个操作就是 最大值 \(+\) 区间加法。区间加法:
阅读全文
摘要:二维卷积层 卷积神经网络(convolutional neural network)是含有卷积层(convolutional layer)的神经网络 二维互相关运算 通常在卷积层中使用更加直观的互相关(cross-correlation)运算,在二维卷积层中,一个二维输入数组和一个二维核(kerne
阅读全文
摘要:2.2.5 Signed versus Unsigned in C C supports both signed and unsigned arithmetic for all of its integer data types. most numbers are signed by default
阅读全文
摘要:读取和存储 在实际中,我们有时需要把训练好的模型部署到很多不同的设备。在这种情况下,我们可以把内存中训练好的模型参数存储在硬盘上供后续读取使用。 读写NDArray 可以直接使用save函数和load函数分别存储和读取NDArray 创建了NDArray变量x,并将其存在文件名同为x的文件里: #导
阅读全文
摘要:自定义层 本节将介绍如何使用NDArray来自定义一个Gluon的层,从而可以被重复调用。 不含模型参数的自定义层 下面的CenteredLayer类通过继承Block类自定义了一个将输入减掉均值后输出的层,并将层的计算定义在了forward函数里。这个层里不含模型参数。 #导包 from mxne
阅读全文
摘要:模型参数的延后初始化 延后初始化 在上一节使用的多层感知机net里,我们创建的隐藏层仅仅指定了输出大小为256。当调用initialize函数时,由于隐藏层输入个数依然未知,系统也无法得知该层权重参数的形状。只有在当我们将形状是(2, 20)的输入$X$传进网络做前向计算net(X)时,系统才推断出
阅读全文
摘要:模型参数的访问、初始化和共享 使用默认方式初始化它的参数,并做一次前向计算。 #导包 from mxnet import init, nd from mxnet.gluon import nn #实例化Sequential类 net = nn.Sequential() #添加隐藏层 net.add(
阅读全文
摘要:Float Point Fractional Binary Numbers Representation Bits to right of "binary point" represent fractional powers of \(2\) Represents rational number:
阅读全文
摘要:模型构造 基于Block类的模型构造方法:它让模型构造更加灵活。 继承Block类来构造模型 Block类是nn模块里提供的一个模型构造类,我们可以继承它来定义我们想要的模型。下面继承Block类构造本节开头提到的多层感知机。这里定义的MLP类重载了Block类的__init__函数和forward
阅读全文
摘要:实战Kaggle比赛:房价预测 读取数据集 两个数据集都包括每栋房子的特征,如街道类型、建造年份、房顶类型、地下室状况等特征值。这些特征值有连续的数字、离散的标签甚至是缺失值“na”。只有训练数据集包括了每栋房子的价格,也就是标签。 下面使用pandas读取这两个文件。 #训练数据加载 train_
阅读全文
摘要:数值稳定性和模型初始化 目标:深度学习模型的数值稳定性问题以及模型参数的初始化方法。 深度模型有关数值稳定性的典型问题是衰减(vanishing)和爆炸(explosion)。 衰减和爆炸 当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为$L$的多层感知机的第$l$层$\boldsy
阅读全文
摘要:正向传播、反向传播和计算图 使用数学来描述正向传播和反向传播。具体来说,我们将以带 \(L2\) 范数正则化的含单隐藏层的多层感知机为样例模型解释正向传播和反向传播。 正向传播 正向传播(forward propagation)是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(
阅读全文
摘要:丢弃法 深度学习模型常常使用丢弃法(dropout) 来应对过拟合问题。本节中提到的丢弃法特指倒置丢弃法(inverted dropout) 输入个数为4,隐藏单元个数为5,且隐藏单元$h_i$(\(i=1, \ldots, 5\))的计算表达式为 \(h_i = \phi\left(x_1 w_{
阅读全文
摘要:3.11模型选择、欠拟合和过拟合 Dive Into Deep Learning 训练误差和泛化误差 训练误差(train-error): 模型在训练数据集上表现出的误差 泛化误差(generalization error): 模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的
阅读全文
摘要:权重衰减 应对过拟合问题的常用方法:权重衰减(weight decay) 方法 权重衰减等价于$L_2$范数正则化(regularization) $L_2$范数正则化在模型原损失函数基础上添加$L_2$范数惩罚项,从而得到训练所需要最小化的函数.$L_2$范数惩罚项指的是模型权重参数每个元素的平方
阅读全文
摘要:线性回归的从零开始实现 导入本节中实验所需的包或模块,其中的matplotlib包可用于作图,且设置成嵌入显示。 #导包 %matplotlib inline from IPython import display from matplotlib import pyplot as plt from
阅读全文
摘要:面向对象编程 面向对象基础 面向对象编程,是一种通过对象的方式,把现实世界映射到计算机模型的一种编程方法。 抽象的是类(class) 具体的是实例(instance) class和instance class是一种对象模版,它定义了如何创建实例,因此,class本身就是一种数据类型 instance
阅读全文

浙公网安备 33010602011771号