Google multitask模型SNR

背景

MMoE模型从一定程度上解决了多个目标(任务)在训练过程中的相互耦合的问题,即使用门控概念(gate network)降低了因为share-layer部分带来的“特征耦合”。但其实这是不够的,因为在每一个expert内部,与其他的expert不存在联系,这导致每个expert的表达能力不是“那么强”。因此google提出了SNR模型,专家层分为多层,底层的专家会互相融合作为高层专家的输入,并采用了NAS来搜索各个任务网络结构

 

SNR模型结构

论文根据 SNR 中专家之间连接方式的不同,提出了 SNR-Trans 和 SNR-Aver 两种网络结构,具体的连接公式如下。其中 u 表示低层专家,v 表示高层专家,z∈[0,1] 用来控制专家间的连接,也就代表着网络结构的搜索空间。

SNR-Trans:

SNR-Aver:

 

 

参考资料

https://zhuanlan.zhihu.com/p/683017323

https://zhuanlan.zhihu.com/p/150464424

 

posted @ 2024-03-06 11:35  xd_xumaomao  阅读(37)  评论(0编辑  收藏  举报