摘要: Vision Transformer (ViT) 分类标识符 Vision Transformer (ViT) 分类标识符 1. 初始化分类标识符 在ViT中,分类标识符是一个可学习的向量,通常在模型初始化时随机初始化。这个标识符的维度与图像块的嵌入向量维度相同,通常记作 zcls,其大小为 D(与 阅读全文
posted @ 2024-08-10 21:52 海_纳百川 阅读(26) 评论(0) 推荐(0) 编辑
摘要: Vision Transformer (ViT) 位置编码 Vision Transformer (ViT) 位置编码 1. 生成位置编码 对于每个图像块(patch),根据其位置生成一个对应的编码向量。假设每个图像块的嵌入向量维度为 D,则位置编码的维度也是 D。 ViT 通常使用可学习的绝对位置 阅读全文
posted @ 2024-08-10 17:58 海_纳百川 阅读(108) 评论(0) 推荐(0) 编辑
本站总访问量