01 2024 档案
摘要:1. Self Attention 2. Scaled-dot-product 3. Multihead Attention 4. 代码部分 1. Self Attention 先计算权重: 再计算加权和 假设某个句子拆分词,每个词对应(k,q,v),那就是该词和剩余词的attention_scor
阅读全文
摘要:Position Encoding 1. 构造Position Encoding 几种方式 2. 位置编码可视化 3. 位置编码性质 Position Encoding 直入主题: 1. 构造Position Encoding 几种方式 一
阅读全文
摘要:Covariant Shift 深度学习ICS(Internal Covariate Shift) 解决ICS方法 BN(batch normalization) Layer Normalization Transformer LN 改进之 Pre-LN Covariant Shift 字面意思理解
阅读全文