摘要: 论文探索了在中型ImageNet-1k数据集上预训练的普通ViT到更具挑战性的COCO目标检测基准的可迁移性,提出了基于Vision Transformer的You Only Look at One Sequence(YOLOS)目标检测模型。在具有挑战性的COCO目标检测基准上的实验结果表明,2D 阅读全文
posted @ 2024-09-02 12:34 晓飞的算法工程笔记 阅读(19) 评论(0) 推荐(0) 编辑
摘要: Less-Attention Vision Transformer利用了在多头自注意力(MHSA)块中计算的依赖关系,通过重复使用先前MSA块的注意力来绕过注意力计算,还额外增加了一个简单的保持对角性的损失函数,旨在促进注意力矩阵在表示标记之间关系方面的预期行为。该架构你能有效地捕捉了跨标记的关联, 阅读全文
posted @ 2024-09-02 12:21 晓飞的算法工程笔记 阅读(245) 评论(0) 推荐(0) 编辑