摘要: DeiT-LT为ViT在长尾数据集上的应用,通过蒸馏DIST标记引入CNN知识,以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外,为了减轻过拟合,论文建议用经过SAM训练的CNN教师进行蒸馏,促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案,DIST标记成为尾 阅读全文
posted @ 2024-08-14 09:55 晓飞的算法工程笔记 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 论文揭示了star operation(元素乘法)在无需加宽网络下,将输入映射到高维非线性特征空间的能力。基于此提出了StarNet,在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟 来源:晓飞的算法工程笔记 公众号 论文: Rewrite the Stars 论文地址:https:/ 阅读全文
posted @ 2024-08-14 09:47 晓飞的算法工程笔记 阅读(130) 评论(0) 推荐(1) 编辑