摘要:
为什么CNN用ReLU Sigmoid的导数范围在内,如果采用Sigmoid作为激活函数,多个小于1的导数连续相乘容易引起梯度消失。 tanh的导数范围在内,虽然导数可以达到1,但是在边缘区域仍然有梯度消失的问题。 ReLU的正半轴不存在梯度消失问题,负半轴的存在可以带来一定的稀疏性,但是也会带来梯 阅读全文
摘要:
大神的论文还是值得认真读,写作思路很好,给出问题&基本解决方案,阐述基本解决方案的痛点,然后根据痛点一一阐述各种Optimizer https://arxiv.org/pdf/1609.04747.pdf An overview of gradient descent optimization al 阅读全文
摘要:
全英文图文说明 https://kazemnejad.com/blog/transformer_architecture_positional_encoding/ 知乎高赞回答:https://www.zhihu.com/question/347678607/answer/864217252 阅读全文
摘要:
值得好好看看 https://zhuanlan.zhihu.com/p/360343071 阅读全文
摘要:
对作者的思路和“技术审美”表示aggre with and respect~ from: https://zhuanlan.zhihu.com/p/49271699 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评 阅读全文
摘要:
两篇好文 先存一下 知乎:https://zhuanlan.zhihu.com/p/33173246 博客:https://blog.csdn.net/malefactor/article/details/82154224?spm=1001.2014.3001.5501 ps 这个博主好文成框 阅读全文
摘要:
idea很棒,实验结果也很棒 from: https://zhuanlan.zhihu.com/p/84614490 Transformer中的warm-up与LayerNorm 之前知乎上有一个问题:神经网络中 warmup 策略为什么有效;有什么理论解释么?在这个问题下,由于理论解释的缺乏,通过 阅读全文
摘要:
这篇写的比较详细: from: https://zhuanlan.zhihu.com/p/35709485 这篇文章中,讨论的Cross Entropy损失函数常用于分类问题中,但是为什么它会在分类问题中这么有效呢?我们先从一个简单的分类例子来入手。 1. 图像分类任务 我们希望根据图片动物的轮廓、 阅读全文
摘要:
转战知乎了 csdn越来愈不行了 from:https://www.zhihu.com/question/50561130/answer/1500766290 作者:门书生链接:https://www.zhihu.com/question/50561130/answer/541175752来源:知乎 阅读全文
摘要:
经典概念总是值得反复学习 from:https://zhuanlan.zhihu.com/p/61944055 1. 引言 我们都知道损失函数有很多种:均方误差(MSE)、SVM的合页损失(hinge loss)、交叉熵(cross entropy)。这几天看论文的时候产生了疑问:为啥损失函数很多用 阅读全文