03 2024 档案
摘要:Attention的原理已经有很多介绍了,实现的伪代码参照transformer,下面写了最简单的版本 import torch, math from torch import nn dropout_prob = 0.1 def forward( hidden_size, # d input, #(
阅读全文
摘要:转:https://mp.weixin.qq.com/s/pkAFDnxYYFlOfY1q2MLsfQ 目前Transformer已经成为各个领域(文本,图像,语音)最常用的模型架构,PyTorch 2.0也进一步对Transformer模块进行了优化,以支持Tranformer结构模型的高效训练和
阅读全文