摘要:
torch中的squeeze和unsqueezesqueeze是压缩,对维度进行降维。不写的话,默认将所有维度为1的去掉(我理解就是去掉对应层的"[]"中括号) 举例: unsqueeze是和squeeze相反的操作 阅读全文
摘要:
什么是BatchNormalization? 1、先取平均值2、计算sigama 2.1、sigama计算方式是见图中公式 3、每一项减去平均值然后除以sigama 什么是Softmax? 什么是Attention和Transformer? 最近在重新学习和认识Attention和Transform 阅读全文