https://blog.csdn.net/weixin_49967436/article/details/121736079
3.1.Multi-Head Attention(图2-红色圆圈部分,图3-红色长方体)
3.2.Self-sttention Distilling(图2-蓝色圆圈部分,图3-蓝色长方体)
目的:减少维度和网络参数
3.3. 多个Layer stacking replicas(图2-黄色圆圈部分,图3-蓝色长方体[左边第一轮])
3.3. 多个Layer stacking replicas(图2-黄色圆圈部分,图3-蓝色长方体[左边第一轮])