使用Pytorch手写ViT — VisionTransformer

《The Attention is all you need》的论文彻底改变了自然语言处理的世界，基于Transformer的架构成为自然语言处理任务的的标准。

尽管基于卷积的架构在图像分类任务中仍然是最先进的技术，但论文《An image is worth 16x16 words: transformer for image recognition at scale》表明，计算机视觉中CNNs的依赖也不是必要的，直接对图像进行分块，然后使用序纯transformer可以很好地完成图像分类任务。

在ViT中，图像被分割成小块，并将这些小块的线性嵌入序列作为Transformer的输入。对图像进行补丁处理方式与NLP应用程序中的标记(单词)相同。

由于缺乏 CNN 固有的归纳偏差（如局部性），Transformers 在数据量不足的情况下不能很好地泛化。但是当在大型数据集上进行训练时，它在多个图像识别基准上确实达到或超过了最先进的水平。在深入本文之前，如果你从未听说过 Transformer 架构，我强烈建议你查看 The Illustrated Transformer。

在开始实现之前，我们先看看ViT架构

可以看到输入图像被分解成 16x16 的扁平化块，然后使用普通的全连接层对这些块进行嵌入操作，并在它们前面包含特殊的 cls token 和位置嵌入。

线性投影的张量被传递给标准的 Transformer 编码器，最后传递给 MLP 头，用于分类目的。

完整文章：

https://avoid.overfit.cn/post/da052c915f4b4309b5e6b139a69394c1

posted @ 2022-08-22 10:24 deephub 阅读(241) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

使用Pytorch手写ViT — VisionTransformer

公告