摘要: Attention的原理已经有很多介绍了,实现的伪代码参照transformer,下面写了最简单的版本 import torch, math from torch import nn dropout_prob = 0.1 def forward( hidden_size, # d input, #( 阅读全文
posted @ 2024-03-28 11:02 高空降落 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 转:https://mp.weixin.qq.com/s/pkAFDnxYYFlOfY1q2MLsfQ 目前Transformer已经成为各个领域(文本,图像,语音)最常用的模型架构,PyTorch 2.0也进一步对Transformer模块进行了优化,以支持Tranformer结构模型的高效训练和 阅读全文
posted @ 2024-03-28 10:58 高空降落 阅读(287) 评论(0) 推荐(0) 编辑