摘要:本文来自公众号"AI大道理" —————— Siamese Network(孪生网络)很早就被发明了,它的作者是著名的卷积神经网络LeNet-5的作者LeCun。最早用来从相似图片数据集上学习图片表示的网络结构就是siamese网络。两幅图通过两个共享权重的CNN得到各自的表示,而各自表示的距离决定
阅读全文
摘要: 本文来自公众号“AI大道理” Network Slimming剪枝是比较广泛的一种模型剪枝方法,作者来自清华大学、英特尔中国实验室、复旦大学和科内尔大学。 添加图片注释,不超过 140 字(可选) 1、Network Slimming剪枝理论 Network Slimming剪枝是结
阅读全文
摘要: 本文来自公众号“AI大道理”。 深度学习网络模型从卷积层到全连接层存在着大量冗余的参数,大量神经元激活值趋近于0,将这些神经元去除后可以表现出同样的模型表达能力,这种情况被称为过参数化,而对应的技术则被称为模型剪枝。 网络一般是over-parameterized参数过多的,有冗余的权重和神经元
阅读全文
摘要: 本文来自公众号“AI大道理” 卷积和池化层在神经网络中非常常见。 正因为习以为常,所以容易让人误以为是必不可少的。 那么卷积能代替池化吗? 池化又能否代替卷积呢? 要想回答这个问题,必须深究其本质,才能看清楚他们是否不可获取,以及缺了会怎么样。 编辑 1、卷积的本质 卷积是一种运算,特征图与卷
阅读全文
摘要: 本文来自公众号“AI大道理” 训练一个神经网络,我们想要得到误差最小,就是要我们的损失函数最小。 如何得到最小值呢? 这就是优化算法。 梯度下降法是众多优化中的一种。 1、损失函数 2、GD(梯度下降法) 3、BGD(批量梯度下降法) 4、SGD(随机梯度下降法) 5、MBGD(小批量梯度下降法
阅读全文
摘要: 本文来自公众号“AI大道理” 正则化作为减少过拟合的手段被大量的使用,那么为什么会出现过拟合呢?正则化又是什么?是怎么样发挥作用的呢? 添加图片注释,不超过 140 字(可选) 1、过拟合是什么? 过拟合是指模型在训练集上取得很高的识别性能,但在测试集上的识别性能偏低的现象。 过拟合使模
阅读全文
摘要: 本文来自公众号“AI大道理” 激活函数(Activation Function)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。 在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入
阅读全文
摘要:https://blog.csdn.net/m0_37407756/article/details/80904580 有部分内容是转载的知乎的,如有侵权,请告知,删除便是,但由于是总结的,所以不一一列出原作者是who。 再次感谢,也希望给其他小白受益。 首先说明:可以不用全连接层的。 理解1: 卷积
阅读全文
摘要:https://blog.csdn.net/red_stone1/article/details/80212814什么是梯度?对于梯度下降算法(Gradient Descent Algorithm),我们都已经很熟悉了。无论是在线性回归(Linear Regression)、逻辑回归(Logisti
阅读全文
摘要:https://www.zhihu.com/question/37096933/answer/70507353 https://blog.csdn.net/red_stone1/article/details/80755144 机器学习中,如果参数过多,模型过于复杂,容易造成过拟合(overfit)
阅读全文
摘要:1 """ 2 生成对抗网络(GAN,Generative Adversarial Networks)的基本原理很简单: 3 假设有两个网络,生成网络G和判别网络D。生成网络G接受一个随机的噪声z并生成图片, 4 记为G(z);判别网络D的作用是判别一张图片x是否真实,对于输入x,D(x)是x为真实图片的概率。 5 在训练过程中, 生成器努力让生成的图片更加真实从而使得判别器...
阅读全文
摘要:https://blog.csdn.net/leviopku/article/details/81388306 https://blog.csdn.net/nockinonheavensdoor/article/details/82055147 https://blog.csdn.net/c9Yv2
阅读全文
摘要:https://blog.csdn.net/weixinhum/article/details/85227476
阅读全文
摘要:https://blog.csdn.net/weixinhum/article/details/85065350 假设q(x)是用来拟合p(x)的概率分布,x属于p的样本空间,交叉熵用于衡量q在拟合p的过程中,用于消除不确定性而充分使用的信息量大小(理解为衡量q为了拟合p所付出的努力,另外注意交叉熵
阅读全文
摘要:https://blog.csdn.net/weixinhum/article/details/85064685 上一篇文章我们简单介绍了信息熵的概念,知道了信息熵可以表达数据的信息量大小,是信息处理一个非常重要的概念。 对于离散型随机变量,信息熵公式如下:H(p)=H(X)=Ex∼p(x)[−lo
阅读全文
摘要:https://blog.csdn.net/weixinhum/article/details/85059557 上一篇文章我们简单介绍了香农信息量的概念,由香农信息量我们可以知道对于一个已知概率的事件,我们需要多少的数据量能完整地把它表达清楚,不与外界产生歧义。但对于整个系统而言,其实我们更加关心
阅读全文
摘要:https://blog.csdn.net/weixinhum/article/details/85059320 香农信息量: 只考虑连续型随机变量的情况。设p为随机变量X的概率分布,即p(x)为随机变量X在X=x处的概率密度函数值,随机变量X在x处的香农信息量定义为: 其中对数以2为底,这时香农信
阅读全文
摘要:https://blog.csdn.net/guolindonggld/article/details/79736508 https://www.jianshu.com/p/43318a3dc715?from=timeline&isappinstalled=0 KL散度(Kullback-Leibl
阅读全文
摘要:https://blog.csdn.net/nockinonheavensdoor/article/details/82055147 注明:直观理解而已,正儿八经的严谨证明看最下面的参考。 Earth Mover’s Distance 推土机距离的例子:有一堆土的分布是 PrPr, 其随机变量是xx
阅读全文
摘要:https://blog.csdn.net/WZZ18191171661/article/details/79444217 论文题目:SSD: Single Shot MultiBox Detector 论文链接:论文链接 论文代码:Caffe代码点击此处 This results in a sig
阅读全文