Pixel Transformer：用像素代替补丁可以提升图像分类精度

在快速发展的人工智能领域，ViTs已成为各种计算机视觉任务的基础模型。ViTs通过将图像划分为小块并将这些小块作为标记来处理图像。6月刚发布一篇论文，引入了一种新颖的方法，即像素级Transformers，它通过将单个像素视为令牌来挑战这种范式。本文将讨论Pixel Transformer的复杂性，创新方法，以及它对人工智能和计算机视觉未来的重要影响。