文章分类 - 深度学习
摘要:卷积 卷积(Convolution),也叫摺积,是分析数学中一种重要的运算。在信号处理或图像处理中,经常使用一维或二维卷积。 一维卷积 一维卷积经常用在信号处理中,用于计算信号的延迟累积。 假设一个信号发生器每个时刻 t 产生一个信号 xt ,其信息的衰减率为 $w
阅读全文
摘要:Inception Network 在卷积网络中,如何设置卷积层的卷积核大小是一个十分关键的问题。在Inception网络中,一个卷积层包含多个不同大小的卷积操作,称为 Inception模块。 Inception网络是由有多个 inception模块和少量的池化层堆叠而成。 Inception模块
阅读全文
摘要:Network In NetWork 2013年新加坡国立大学的林敏等人在论文中提出了1×1卷积核及NIN网络。 使用1×1卷积核进行卷积的过程如上图,它就是在卷积过程中采用大小为1×1的滤波器。如果神经网络的当前一层和下一层都只有一个信道,也就是nC=1,那么采用1×1卷积核起不到什么作
阅读全文
摘要:ResNets 当一个神经网络某个深度时,将会出现 梯度消失(Vanishing Gradient) 和 梯度爆炸(Exploding Gradient) 等问题。而ResNets能很好得解决这些问题。 ResNets全称为 残差网络(Residual Networks) ,它是微软研究院2015年
阅读全文
摘要:VGG 16 VGG 16是Simonyan和Zisserman 2015年在论文中提出的卷积网络。其结构如下图: VGG 16卷积网络的结构比较简单,其只要通过池化过程来压缩数据。VGG 16中的16指的是它有16个有权重的层。它是个比上面两个大得多的卷积网络,大约有13800万个参数。
阅读全文
摘要:AlexNet AlexNet[Krizhevsky et al., 2012]是第一个现代深度卷积网络模型,其首次使用了很多现代深度卷积网络的一些技术方法,比如使用 GPU 进行并行训练,采用了 ReLU作为非线性激活函数,使用 Dropout 防止过拟合,使用数据增强来提高模型准确率等。 Ale
阅读全文
摘要:LeNet 5 LeNet 5[LeCun et al., 1998]虽然提出的时间比较早,但是是一个非常成功的神经网络模型。基于 LeNet 5的手写数字识别系统在 90年代被美国很多银行使用,用来识别支票上面的手写数字。 "原文下载" 示例 LeNet 5共有7层,不包含输入,每层都包含可训练参
阅读全文
摘要:用卷积来代替全连接 在全连接前馈神经网络中,如果第 l 层有 nl 个神经元,第 l1 层有 n(l1) 个神经元,连接边有 n(l)×n(l1) ,也就是权重矩阵有 n(l)×n(l1) 个参数。当 $
阅读全文
摘要:迁移学习 迁移学习(Tranfer Learning) 是将一个神经网络从一个任务中学到的知识和经验,运用到另一个任务中。 如上图中,将为猫识别器构建的神经网络迁移应用到放射诊断中,因为猫识别器的神经网络已经学习到了关于图像的结构和性质等方面的知识,所以只要先删除神经网络的中最后一层,输出层的权重值
阅读全文
摘要:不匹配的数据集 训练、开发、测试集的来源都应该要是相同的。在无法达成这一要求下,对于不同来源的数据集,就要充分考虑如何将它们进行划分。 举个例子,想要开发一款手机应用,就像现在的Google相册中分类功能一样,能对用户上传的猫的图片进行识别。假如现在有1万张普通用户上传的猫的图片数据,这些图片的质量
阅读全文
摘要:错误分析 当使用一个学习算法做人类可以做的任务时,如果这个学习算法还达不到人类去做时的性能,通过人工检查算法得出的结果中出现的一些错误,可以使你深入了解下一步要进行的工作,这个过程便称为错误分析。 比如对于一个猫分类器,在开发组里你已经取得了90%的识别准确率,还存在10%的出错率,而且还发现分类器
阅读全文
摘要:比较人类表现水平 如今,设计和建立一个机器学习系统比以前变得更为简单高效,一些机器学习算法的在很多领域的表现已经可以和我们人类一决高下了,例如之前由Google DeepMind公司开发的声名全球AlphaGo。然而,很多任务对于我们人类来说,都能够几近完美地完成,达到人类的表现水平便是机器学习试图
阅读全文
摘要:数据处理 构建机器学习系统时,对数据集的处理方法将影响你个整个构建过程中的进度。通过前面已经知道,一般把收集到的现有数据分为训练集、开发集和测试集,其中开发集也称为交叉验证集。构建机器学习系统时,采用一些不同的方法,在训练集上训练出不同的模型,随后使用开发集对模型的好坏进行评估,确信某个模型效果足够
阅读全文
摘要:单一数字评估 构建机器学习系统时,通过设置一个 单一数字评估指标(single number evaluation metric) ,可以更为快速地判断出在经过几次调整后得到的不同结果里,哪个的效果要好些。 对于一个分类器,评价分类器性能的指标一般是分类的 准确率(Accuracy) ,也就是正确分
阅读全文
摘要:正交化 构建机器学习系统的挑战之一就是其中有很多你可以尝试、更改的东西,例如,其中有很多的超参数需要进行训练。把握好尝试、更改的方向,认识到进行的调整将带来的影响,是十分关键的。 正交化(Orthogonalization) 件时,不会产生或传播副作用到系统种的其他组件的一种系统设计属性。它使得验证
阅读全文
摘要:批标准化 批标准化(Batch Normalization,BN) 和之前的数据集标准化类似,是将分散的数据进行统一的一种做法。具有统一规格的数据,能让机器更容易学习到数据中的规律。 对于含有m个节点的某一层神经网络,对z进行操作的步骤为: $$ \mu = \frac{1}{m} \sum_{i=
阅读全文
摘要:学习率衰减 随着时间推移,慢慢减少学习率α的大小。在初期α较大时,迈出的步长较大,能以较快的速度进行梯度下降,而后期逐步减小α的值,减小步长,有助于算法的收敛,更容易接近最优解。 常用到的几种学习率衰减方法有: $$ \alpha = \frac{1}{1+\text{decay_rat
阅读全文
摘要:指数加权平均 指数加权平均(Exponentially Weight Average) 是一种常用的序列数据处理方式,其计算公式为: $$ S_t = \begin{cases} Y_1, & t=1 \\ \beta S_{t 1} + (1 \beta)Y_{t}, & t 1 \end{cas
阅读全文
摘要:梯度下降法 批梯度下降法(Batch Gradient Descent,BGD) 是最常用的梯度下降形式,前面的Logistic回归及深层神经网络的构建中所用到的梯度下降都是这种形式。其在更新参数时使用所有的样本来进行更新,具体过程为: $$ {X = [x^{(1)},x^{(2)},…,x^{(
阅读全文
摘要:梯度检验 梯度检验的实现原理,是根据导数的定义,对成本函数求导,有: $$ J’(\theta) = \frac{\partial J(\theta)}{\partial \theta}= \lim_{\epsilon\rightarrow 0}\frac{J(\theta+\epsilon) J(
阅读全文