随笔分类 - transfomer
摘要:摘要核心1.本文提出一种可以适用于多种任务的backbone->swin transformer2.Transformer迁移到CV中有两点挑战->物体尺度不一,图像分辨率大3.为了解决尺度不一的问题,Swin Transformer使用了分层的结构(Pyramid)4.为了能够在高分辨率上运行,S
阅读全文
摘要:目前的方法,无论是单阶段的还是两阶段的,无论是Anchor Based还是Ancho一例外的需要使用后处理方法->NMS来过滤掉冗余的预测框这是因为目前的方法全都基于Dense Frediction,合人类识别物体的方在原理上,这种操作方式不符式。在实践中,这会导致目标检测中会有一系列的手工设计痕迹
阅读全文
摘要:DETR是一个简洁的pipeline,但有一部分操作还是Dense的DETR提出了一套不同于Dense Prediction的pipeline,将检测视为一个Set Prediction问题,成功去掉了Anchor Generation和NMS但是在Decoder中,Object Query和Fea
阅读全文
摘要:1. 为什么有patch0,需要一个整合信息的向量,如果只有原始输出的9个向量,用哪个向量来分类都不好。 全用计算量又很大所以加一个可学习的vector,也就是patch 0来整合信息。分类需要,分割和检测不是 2. 位置编码 图像切分重排后失去了位置信息并且Transformer的内部运算是空间信
阅读全文