摘要: 目录1. 引入self-attention2. self-attention3. self-attention的并行计算4. 多头self-attention5. 位置编码,self-attention的扩展知识 attention层最早由Google提出,用在了Transformer中。如今,at 阅读全文
posted @ 2024-10-28 21:25 Brain404 阅读(5) 评论(0) 推荐(0) 编辑