摘要:
简单的堆叠卷积层和池化层行不行?堆叠在20层的网络结构的时候,模型的训练错误在1%-2%左右,但是当训练的层数增加到56层的时候,训练的错误在7%-8%。很明显通过卷积层和池化层的增加是不行的。 是什么原因造成训练的结果很差的呢?两个问题:随着网络层数的增加,梯度消失和梯度爆炸这个问题越来越明显。我 阅读全文
摘要:
transformer中的positional encoding(位置编码)计算理解 博客: https://blog.csdn.net/qq_39783265/article/details/106790875 https://avoid.overfit.cn/post/dc84ff7287e54 阅读全文