03 2024 档案

attention伪代码（pytorch 版）

摘要：Attention的原理已经有很多介绍了，实现的伪代码参照transformer，下面写了最简单的版本 import torch, math from torch import nn dropout_prob = 0.1 def forward( hidden_size, # d input, #( 阅读全文

posted @ 2024-03-28 11:02 高空降落阅读(106) 评论(0) 推荐(0) 编辑

pytorch-SDPA

摘要：转：https://mp.weixin.qq.com/s/pkAFDnxYYFlOfY1q2MLsfQ 目前Transformer已经成为各个领域（文本，图像，语音）最常用的模型架构，PyTorch 2.0也进一步对Transformer模块进行了优化，以支持Tranformer结构模型的高效训练和阅读全文

posted @ 2024-03-28 10:58 高空降落阅读(1545) 评论(0) 推荐(0) 编辑

公告

昵称：高空降落
园龄： 7年5个月
粉丝： 0
关注： 18

+加关注

2025年2月

日

一

二

三

四

五

六

随笔分类

1. Elasticsearch--集群管理_再平衡&预热(1)

高空降落

03 2024 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

相册

阅读排行榜

评论排行榜

推荐排行榜

最新评论