2024 年 3月 28 日随笔档案 - 高空降落

2024年3月28日

摘要： Attention的原理已经有很多介绍了，实现的伪代码参照transformer，下面写了最简单的版本 import torch, math from torch import nn dropout_prob = 0.1 def forward( hidden_size, # d input, #( 阅读全文

posted @ 2024-03-28 11:02 高空降落阅读(33) 评论(0) 推荐(0) 编辑

pytorch-SDPA

摘要：转：https://mp.weixin.qq.com/s/pkAFDnxYYFlOfY1q2MLsfQ 目前Transformer已经成为各个领域（文本，图像，语音）最常用的模型架构，PyTorch 2.0也进一步对Transformer模块进行了优化，以支持Tranformer结构模型的高效训练和阅读全文

posted @ 2024-03-28 10:58 高空降落阅读(287) 评论(0) 推荐(0) 编辑

高空降落

公告