摘要: 模型如下图所示: 将H×W×C的图像reshape成了N×(P2×C),其中(H,W)是图像的原始分辨率,C是通道数,(P,P)是每个图像块的分辨率,N=H×W/P2为图像块的数量,将一个图像块使用可学习的线性层映射到维度为D的隐藏向量,如式(1)所示,线性映射的输出称为patch embeddin 阅读全文
posted @ 2023-04-29 23:45 MSTK 阅读(57) 评论(0) 推荐(0) 编辑