摘要: VIT An image is worth 16x16 words: transformers for image recognition at scale 将transformer首次应用在视觉任务中,并取得了超过CNN方法的性能。 标准的transformer接收一维的向量序列如 $(x_1, 阅读全文
posted @ 2022-11-05 19:44 星辰大海,绿色星球 阅读(163) 评论(0) 推荐(0) 编辑
摘要: Outlook Attention 设给定输入为 $X \in R^{H \times W \times C}$, 首先经过两个线性映射得到两个输出A 和 V,A叫做outlook weight $A \in R^{H \times W \times K^4}$, V叫做value represen 阅读全文
posted @ 2022-11-05 19:41 星辰大海,绿色星球 阅读(117) 评论(0) 推荐(0) 编辑