摘要: 简单的堆叠卷积层和池化层行不行?堆叠在20层的网络结构的时候,模型的训练错误在1%-2%左右,但是当训练的层数增加到56层的时候,训练的错误在7%-8%。很明显通过卷积层和池化层的增加是不行的。 是什么原因造成训练的结果很差的呢?两个问题:随着网络层数的增加,梯度消失和梯度爆炸这个问题越来越明显。我 阅读全文
posted @ 2023-02-20 20:17 emanlee 阅读(13121) 评论(0) 推荐(0) 编辑
摘要: transformer中的positional encoding(位置编码)计算理解 博客: https://blog.csdn.net/qq_39783265/article/details/106790875 https://avoid.overfit.cn/post/dc84ff7287e54 阅读全文
posted @ 2023-02-20 16:40 emanlee 阅读(2103) 评论(0) 推荐(0) 编辑