摘要: Attention Is All You Need 编码器端 Self-attention层 用处:将对其他相关单词的“理解”融入我们当前正在处理的单词的方法,类似于RNN通过保持隐藏状态让 RNN 将其已处理的先前单词/向量的表示与当前正在处理的单词/向量结合起来 将单词输入转化为Embeddin 阅读全文
posted @ 2024-06-16 20:13 peterzh6 阅读(30) 评论(0) 推荐(0) 编辑