07 2023 档案

Vision Transformer(VIT)

摘要：1.ViT 介绍 Vision Transformer是在最少改动Transformer结构的情况下，将Transformer应用到图像上。因此，将图片划分成patch，并将这些patch的线性嵌入序列作为输入，具体在下面详细介绍。这里的图像patch和NLP中的token相同。但是在中等大小的数阅读全文

posted @ 2023-07-03 22:11 指间的执着阅读(877) 评论(0) 推荐(0)

07 2023 档案

公告