Google multitask模型SNR

背景

MMoE模型从一定程度上解决了多个目标（任务）在训练过程中的相互耦合的问题，即使用门控概念（gate network）降低了因为share-layer部分带来的“特征耦合”。但其实这是不够的，因为在每一个expert内部，与其他的expert不存在联系，这导致每个expert的表达能力不是“那么强”。因此google提出了SNR模型，专家层分为多层，底层的专家会互相融合作为高层专家的输入，并采用了NAS来搜索各个任务网络结构

SNR模型结构

论文根据 SNR 中专家之间连接方式的不同，提出了 SNR-Trans 和 SNR-Aver 两种网络结构，具体的连接公式如下。其中 u

SNR-Aver：

posted @ 2024-03-06 11:36 AI_Engineer 阅读(169) 评论(0) 收藏举报

刷新页面返回顶部

xd_xumaomao

Google multitask模型SNR

背景

SNR模型结构

公告

xd_xumaomao

Google multitask模型SNR

背景

SNR模型结构

参考资料

公告