2023 年 11月 15 日随笔档案 - deephub

2023年11月15日

摘要：这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文，它主要的观点如下：具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明，所有mlp都可以在语言建模方面与transformer相匹配，但在下游任务方面仍然落后。所以论文提出了s 阅读全文

posted @ 2023-11-15 09:32 deephub 阅读(12) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告