informer 各类图示

 

https://blog.csdn.net/weixin_49967436/article/details/121736079

 

 

 

 

 

3.1.Multi-Head Attention(图2-红色圆圈部分,图3-红色长方体)

 

 

 3.2.Self-sttention Distilling(图2-蓝色圆圈部分,图3-蓝色长方体)
目的:减少维度和网络参数

 

 3.3. 多个Layer stacking replicas(图2-黄色圆圈部分,图3-蓝色长方体[左边第一轮])
在这里插入图片描述

 3.3. 多个Layer stacking replicas(图2-黄色圆圈部分,图3-蓝色长方体[左边第一轮])
在这里插入图片描述

 

 

 

 

 

 

 

 

posted @ 2023-10-08 07:59  emanlee  阅读(48)  评论(0编辑  收藏  举报