sMLP:稀疏全mlp进行高效语言建模

这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文，它主要的观点如下：

具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明，所有mlp都可以在语言建模方面与transformer相匹配，但在下游任务方面仍然落后。所以论文提出了sMLP，通过设计确定性路由和部分预测来解决下游任务方面的问题。