shiwuxian

导航

 

2022年3月31日

摘要: 注意力机制 橙色与绿色:输入的两个query。 K:key。 V:value 连线为权重,离的近的相似度高,同时权重就高,然后用权重乘以value就得到输出向量 多头注意力机制 MASK掩码:对t时刻(红色笔记)之后的数值,设为很大的负数(绿色笔记),从而将softmax变成0,起到只关注t时刻之前 阅读全文
posted @ 2022-03-31 17:26 SHIWUXIAN 阅读(1052) 评论(0) 推荐(0) 编辑
 
摘要: batch竖切,对属性做normalization(规范化,标准化,正态化) layer横切,对每个样本单独做normalization 阅读全文
posted @ 2022-03-31 17:18 SHIWUXIAN 阅读(110) 评论(0) 推荐(0) 编辑