凌波微步_Arborday

2021年7月1日

摘要：为什么CNN用ReLU Sigmoid的导数范围在内，如果采用Sigmoid作为激活函数，多个小于1的导数连续相乘容易引起梯度消失。 tanh的导数范围在内，虽然导数可以达到1，但是在边缘区域仍然有梯度消失的问题。 ReLU的正半轴不存在梯度消失问题，负半轴的存在可以带来一定的稀疏性，但是也会带来梯阅读全文

posted @ 2021-07-01 10:29 凌波微步_Arborday 阅读(1912) 评论(0) 推荐(0) 编辑

2021年6月24日

[转] 深度学习中的optimizer

摘要：大神的论文还是值得认真读，写作思路很好，给出问题&基本解决方案，阐述基本解决方案的痛点，然后根据痛点一一阐述各种Optimizer https://arxiv.org/pdf/1609.04747.pdf An overview of gradient descent optimization al 阅读全文

posted @ 2021-06-24 23:25 凌波微步_Arborday 阅读(57) 评论(0) 推荐(0) 编辑

2021年6月22日

[转] Position embedding相关

摘要：全英文图文说明 https://kazemnejad.com/blog/transformer_architecture_positional_encoding/ 知乎高赞回答：https://www.zhihu.com/question/347678607/answer/864217252 阅读全文

posted @ 2021-06-22 17:30 凌波微步_Arborday 阅读(114) 评论(0) 推荐(0) 编辑

bert中的为什么

摘要：值得好好看看 https://zhuanlan.zhihu.com/p/360343071 阅读全文

posted @ 2021-06-22 17:16 凌波微步_Arborday 阅读(28) 评论(0) 推荐(0) 编辑

2021年6月21日

[转] 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

摘要：对作者的思路和“技术审美”表示aggre with and respect~ from: https://zhuanlan.zhihu.com/p/49271699 Bert最近很火，应该是最近最火爆的AI进展，网上的评价很高，那么Bert值得这么高的评价吗？我个人判断是值得。那为什么会有这么高的评阅读全文

posted @ 2021-06-21 07:22 凌波微步_Arborday 阅读(134) 评论(0) 推荐(0) 编辑

2021年6月20日

［转］深度学习中的各种Norm

摘要：两篇好文先存一下知乎：https://zhuanlan.zhihu.com/p/33173246 博客：https://blog.csdn.net/malefactor/article/details/82154224?spm=1001.2014.3001.5501 ps 这个博主好文成框阅读全文

posted @ 2021-06-20 16:02 凌波微步_Arborday 阅读(160) 评论(0) 推荐(0) 编辑

[转] Transformer中warm-up和LayerNorm的重要性探究

摘要： idea很棒，实验结果也很棒 from： https://zhuanlan.zhihu.com/p/84614490 Transformer中的warm-up与LayerNorm 之前知乎上有一个问题：神经网络中 warmup 策略为什么有效；有什么理论解释么？在这个问题下，由于理论解释的缺乏，通过阅读全文

posted @ 2021-06-20 11:18 凌波微步_Arborday 阅读(922) 评论(0) 推荐(0) 编辑

2021年6月14日

[转] 为什么分类问题的损失函数采用交叉熵而不是均方误差MSE？

摘要：这篇写的比较详细： from: https://zhuanlan.zhihu.com/p/35709485 这篇文章中，讨论的Cross Entropy损失函数常用于分类问题中，但是为什么它会在分类问题中这么有效呢？我们先从一个简单的分类例子来入手。 1. 图像分类任务我们希望根据图片动物的轮廓、阅读全文

posted @ 2021-06-14 15:48 凌波微步_Arborday 阅读(1766) 评论(0) 推荐(0) 编辑

[转] 伯努利分布 v.s 二项分布

摘要：转战知乎了 csdn越来愈不行了 from：https://www.zhihu.com/question/50561130/answer/1500766290 作者：门书生链接：https://www.zhihu.com/question/50561130/answer/541175752来源：知乎阅读全文

posted @ 2021-06-14 15:02 凌波微步_Arborday 阅读(262) 评论(0) 推荐(0) 编辑

[转] 交叉熵 again

摘要：经典概念总是值得反复学习 from：https://zhuanlan.zhihu.com/p/61944055 1. 引言我们都知道损失函数有很多种：均方误差（MSE）、SVM的合页损失（hinge loss）、交叉熵（cross entropy）。这几天看论文的时候产生了疑问：为啥损失函数很多用阅读全文

posted @ 2021-06-14 11:37 凌波微步_Arborday 阅读(52) 评论(0) 推荐(0) 编辑

凌波微步_Arborday

公告