摘要:
ViT| Vision Transformer |理论 + 代码_哔哩哔哩_bilibili 课件地址 https://65d8gk.axshare.com/?id=hk98lb&p=%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84&g=1&sc=3 1 不用卷积神经网络那些 阅读全文
摘要:
官方 https://jalammar.github.io/illustrated-transformer/ 知乎解读 https://zhuanlan.zhihu.com/p/266069794 解码器中的自关注层的运行方式与编码器中的运行方式略有不同: 在解码器中,自注意力层只允许关注输出序列中 阅读全文
摘要:
10.5. 多头注意力 — 动手学深度学习 2.0.0 documentation (d2l.ai) Multi-Head Attention | 算法 + 代码_哔哩哔哩_bilibili 代码实现 x[1,4,2] 1几个样本(句子) 4 预测步长(4个单词) 2每个单词的编码后特征长度 fro 阅读全文