2024 年 8月 12 日随笔档案 - deephub

2024年8月12日

使用BatchNorm替代LayerNorm可以减少Vision Transformer训练时间和推理时间

摘要：以Vision Transformer (ViT)的发现为先导的基于transformer的架构在计算机视觉领域引发了一场革命。对于广泛的应用,ViT及其各种变体已经有效地挑战了卷积神经网络(CNN)作为最先进架构的地位。尽管取得了一些成功,但是ViT需要更长的训练时间,并且对于小型到中型输入数据大阅读全文

posted @ 2024-08-12 11:50 deephub 阅读(33) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告