07 2023 档案

摘要:1.ViT 介绍 Vision Transformer是在最少改动Transformer结构的情况下,将Transformer应用到图像上。因此,将图片划分成patch,并将这些patch的线性嵌入序列作为输入,具体在下面详细介绍。这里的图像patch和NLP中的token相同。 但是在中等大小的数 阅读全文
posted @ 2023-07-03 22:11 指间的执着 阅读(519) 评论(0) 推荐(0) 编辑