随笔分类 - Deep Learning
摘要:RNN梯度消失和爆炸的原因经典的RNN结构如下图所示:假设我们的时间序列只有三段, 为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下:假设在t=3时刻,损失函数为 。则对于一次训练任务的损失函数为 ,即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对 、 、 以及 求偏导,并不断调整它们以使L尽可能达到最小的过程。现在假设我们我们的时间序列只有三段,t1,t...
阅读全文
摘要:Generative Adversarial Network,就是大家耳熟能详的 GAN,由 Ian Goodfellow 首先提出,在这两年更是深度学习中最热门的东西,仿佛什么东西都能由 GAN 做出来。我最近刚入门 GAN,看了些资料,做一些笔记。 可以参考另一篇,GAN原理 https://w
阅读全文
摘要:独立成分分析(Independent component analysis) 前言 独立成分分析ICA是一个在多领域被应用的基础算法。ICA是一个不定问题,没有确定解,所以存在各种不同先验假定下的求解算法。相比其他技术,ICA的开源代码不是很多,且存在黑魔法–有些步骤并没有在论文里提到,但没有这些步
阅读全文
摘要:1. 深度可分离卷积(depthwise separable convolution)在可分离卷积(separable convolution)中,通常将卷积操作拆分成多个步骤。而在神经网络中通常使用的就是深度可分离卷积(depthwise separable convolution)。 举个例子,假设有一个3×3大小的卷积层,其输入通道为16、输出通道为32。 那么一般的操作就是用32个3×3的...
阅读全文
摘要:语义分割是将标签分配给图像中的每个像素的过程。这与分类形成鲜明对比,其中单个标签被分配给整个图片。语义分段将同一类的多个对象视为单个实体。另一方面,实例分段将同一类的多个对象视为不同的单个对象(或实例)。通常,实例分割比语义分割更难。语义和实例分割之间的比较。(来源)本博客探讨了使用经典和深度学习方法执行语义分割的一些方法。此外,还讨论了流行的损失函数选择和应用。经典方法在深度学习时代开始之前,使...
阅读全文
摘要:本文介绍了LSTM网络中的TimeDistributed包装层,代码演示了具有TimeDistributed层的LSTM网络配置方法。 演示了一对一,多对一,多对多,三种不同的预测方法如何配置。 在对多对一预测中用了不配置TimeDistributed的方法,在多对多预测中使用了TimeDistri
阅读全文
摘要:From the offical code: So - basically the TimeDistributedDense was introduced first in early versions of Keras in order to apply a Dense layer stepwis
阅读全文
摘要:2017年中,有两篇类似同时也是笔者非常欣赏的论文,分别是FaceBook的《Convolutional Sequence to Sequence Learning》和Google的《Attention is All You Need》,它们都算是Seq2Seq上的创新,本质上来说,都是抛弃了RNN结构来做Seq2Seq任务。这篇博文中,笔者对《Attention is All You Need》...
阅读全文
摘要:Radial Basis Functions (RBFs) are set of functions which have same value at a fixed distance from a given central point. Even Gaussian Kernels with a
阅读全文
摘要:model.summary() in Tensorflow like Keras Use Slim Example: Output: 来源: https://stackoverflow.com/questions/46560313/is-there-an-easy-way-to-get-someth
阅读全文
摘要:TensorFlow Saver 保存最佳模型 tf.train.Saver Save Best Model Checkmate is designed to be a simple drop-in solution for a very common Tensorflow use-case: ke
阅读全文
摘要:nn.softmax 和 softmax_cross_entropy_with_logits 和 softmax_cross_entropy_with_logits_v2 的区别 You have every reason to be confused, because in supervised
阅读全文
摘要:英文详细版参考:https://www.cnblogs.com/jins-note/p/10243716.html Dataset API是TensorFlow 1.3版本中引入的一个新的模块,主要服务于数据读取,构建输入数据的pipeline。此前,在TensorFlow中读取数据一般有两种方法:使用placeholder读内存中的数据使用queue读硬盘中的数据(关于这种方式,可以参考我之前的...
阅读全文
摘要:How to use Data Iterator in TensorFlowone_shot_iteratorinitializable iteratorreinitializable iteratorfeedable iteratorThe built-in Input Pipeline. Never use ‘feed-dict’ anymoreUpdate 2/06/2018: Added ...
阅读全文
摘要:Difference between 'SAME' and 'VALID' padding 'SAME' padding 和 'VALID' padding 的区别 If you like ascii art: In this example: Input width = 13 Filter wid
阅读全文
摘要:加速网络收敛——BN、LN、WN与selu 自Batch Norm出现之后,Layer Norm和Weight Norm作为Batch Norm的变体相继出现。最近又出来一个很”简单”的激活函数Selu,能够实现automatic rescale and shift。这些结构都是为了保证网络能够堆叠
阅读全文
摘要:贝叶斯模型在机器学习以及人工智能中都有出现,cherry分类器使用了朴素贝叶斯模型算法,经过简单的优化,使用1000个训练数据就能得到97.5%的准确率。虽然现在主流的框架都带有朴素贝叶斯模型算法,大多数开发者只需要直接调用api就能使用。但是在实际业务中,面对不同的数据集,必须了解算法的原理,实现以及懂得对结果进行分析,才能达到高准确率。cherry分类器关键字过滤贝叶斯模型数学推导贝叶斯模型实...
阅读全文
摘要:使用Keras训练具有多个GPU的深度神经网络(照片来源:Nor-Tech.com)。 摘要 在今天的博客文章中,我们学习了如何使用多个GPU来训练基于Keras的深度神经网络。 使用多个GPU使我们能够获得准线性加速。 为了验证这一点,我们在CIFAR-10数据集上训练了MiniGoogLeNet
阅读全文
摘要:The model.evaluate function predicts the output for the given input and then computes the metrics function specified in the model.compile and based on
阅读全文
摘要:Click here to download the source code to this post. In this tutorial, you’ll learn how to use the YOLO object detector to detect objects in both imag
阅读全文