摘要:
VIT An image is worth 16x16 words: transformers for image recognition at scale 将transformer首次应用在视觉任务中,并取得了超过CNN方法的性能。 标准的transformer接收一维的向量序列如 $(x_1, 阅读全文
摘要:
Outlook Attention 设给定输入为 $X \in R^{H \times W \times C}$, 首先经过两个线性映射得到两个输出A 和 V,A叫做outlook weight $A \in R^{H \times W \times K^4}$, V叫做value represen 阅读全文