随笔分类 -  机器学习

摘要:目标检测和边界框 在图像分类任务里,我们假设图像里只有一个主体目标,并关注如何识别该目标的类别。然而,很多时候图像里有多个我们感兴趣的目标,我们不仅想知道它们的类别,还想得到它们在图像中的具体位置。在计算机视觉里,我们将这类任务称为目标检测(object detection)或物体检测。 目标检测在 阅读全文
posted @ 2020-02-20 19:01 Jaww 阅读(1387) 评论(0) 推荐(0) 编辑
摘要:梯度下降和随机梯度下降 梯度下降在深度学习中很少被直接使用,但理解梯度的意义以及沿着梯度反方向更新自变量可能降低目标函数值的原因是学习后续优化算法的基础。随后,将引出随机梯度下降(stochastic gradient descent)。 一维梯度下降 以简单的一维梯度下降为例,解释梯度下降算法可能 阅读全文
posted @ 2020-02-20 17:07 Jaww 阅读(512) 评论(0) 推荐(0) 编辑
摘要:优化与深度学习 优化与估计 尽管优化方法可以最小化深度学习中的损失函数值,但本质上优化方法达到的目标与深度学习的目标并不相同。 优化方法目标:训练集损失函数值 深度学习目标:测试集损失函数值(泛化性) 1 %matplotlib inline 2 import sys 3 import d2lzh1 阅读全文
posted @ 2020-02-20 12:01 Jaww 阅读(667) 评论(0) 推荐(0) 编辑
摘要:批量归一化 批量归一化(batch normalization)层,它能让较深的神经网络的训练变得更加容易。对图像处理的输入数据做了标准化处理:处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相近:这往往更容易训练出有效的模型。 通常来说,数据标准化 阅读全文
posted @ 2020-02-18 22:27 Jaww 阅读(1678) 评论(0) 推荐(0) 编辑
摘要:编码器—解码器(seq2seq) 在自然语言处理的很多应用中,输入和输出都可以是不定长序列。以机器翻译为例,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如 英语输入:“They”、“are”、“watching”、“.” 法语输出:“Ils”、“regardent”、“ 阅读全文
posted @ 2020-02-17 11:10 Jaww 阅读(1702) 评论(0) 推荐(1) 编辑
摘要:深度卷积神经网络(AlexNet) 在LeNet提出后的将近20年里,神经网络一度被其他机器学习方法超越,如支持向量机。虽然LeNet可以在早期的小数据集上取得好的成绩,但是在更大的真实数据集上的表现并不尽如人意。一方面,神经网络计算复杂。虽然20世纪90年代也有过一些针对神经网络的加速硬件,但并没 阅读全文
posted @ 2020-02-16 17:35 Jaww 阅读(1209) 评论(0) 推荐(0) 编辑
摘要:CNN-二维卷积层 卷积神经网络(convolutional neural network)是含有卷积层(convolutional layer)的神经网络。卷积神经网络均使用最常见的二维卷积层。它有高和宽两个空间维度,常用来处理图像数据。 二维互相关运算 虽然卷积层得名于卷积(convolutio 阅读全文
posted @ 2020-02-16 16:33 Jaww 阅读(987) 评论(1) 推荐(0) 编辑
摘要:门控循环单元(GRU) 循环神经网络中的梯度计算方法。当时间步数较大或者时间步较小时,循环神经网络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸,但无法解决梯度衰减的问题。通常由于这个原因,循环神经网络在实际中较难捕捉时间序列中时间步距离较大的依赖关系。 门控循环神经网络(gated re 阅读全文
posted @ 2020-02-15 20:08 Jaww 阅读(3316) 评论(0) 推荐(1) 编辑
摘要:正向传播 正向传播的计算图 通常绘制计算图来可视化运算符和变量在计算中的依赖关系。下图绘制了本节中样例模型正向传播的计算图,其中左下角是输入,右上角是输出。可以看到,图中箭头方向大多是向右和向上,其中方框代表变量,圆圈代表运算符,箭头表示从输入到输出之间的依赖关系。 反向传播 训练深度学习模型 在训 阅读全文
posted @ 2020-02-15 14:54 Jaww 阅读(984) 评论(0) 推荐(0) 编辑
摘要:训练误差和泛化误差 需要区分训练误差(training error)和泛化误差(generalization error)。前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函 阅读全文
posted @ 2020-02-15 11:45 Jaww 阅读(929) 评论(0) 推荐(0) 编辑
摘要:循环神经网络 下图展示了如何基于循环神经网络实现语言模型。目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量𝐻,用𝐻𝑡表示𝐻在时间步𝑡的值。𝐻𝑡的计算基于𝑋𝑡和𝐻𝑡−1,可以认为𝐻𝑡记录了到当前字符为止的序列信息,利用𝐻𝑡对序列的下 阅读全文
posted @ 2020-02-14 17:18 Jaww 阅读(358) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示