01 2024 档案

摘要:1. Self Attention 2. Scaled-dot-product 3. Multihead Attention 4. 代码部分 1. Self Attention 先计算权重: 再计算加权和 假设某个句子拆分词,每个词对应(k,q,v),那就是该词和剩余词的attention_scor 阅读全文
posted @ 2024-01-19 15:50 adam86546853 阅读(14) 评论(0) 推荐(0) 编辑
摘要:Position Encoding 1. 构造Position Encoding 几种方式 2. 位置编码可视化 3. 位置编码性质 Position Encoding 直入主题: input=input_emb+pos_emb 1. 构造Position Encoding 几种方式 一 阅读全文
posted @ 2024-01-19 14:36 adam86546853 阅读(10) 评论(0) 推荐(0) 编辑
摘要:Covariant Shift 深度学习ICS(Internal Covariate Shift) 解决ICS方法 BN(batch normalization) Layer Normalization Transformer LN 改进之 Pre-LN Covariant Shift 字面意思理解 阅读全文
posted @ 2024-01-19 14:34 adam86546853 阅读(17) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示