摘要:
关于视觉识别领域发展的个人观点-谢凌曦 图像不是2D的,而是… 阅读全文
摘要:
caption数据+DETR做开集检测 1、动机 1、只在固定object和属性上训练,解决不了长尾的问题/开集 2、方法 2.1 优势 1、MDETR仅依赖于文本和对齐的框作为图像中概念形式进行监督;不像目标检测,这个文本概念是free-form,因此可以泛化到unseen 目标或者属性 2.2 阅读全文
摘要:
CoOp训练 1.准备训练数据,按照每个类别分文件夹存放 2.datasets增加数据定义文件 CoOp-main\configs\datasets 3.增加数据加载处理文件,可参考dtd.py 4.修改CoOp-main\scripts\coop\main.sh中的 DATA数据目录 DIR工作目 阅读全文
摘要:
ViLD基础上引入prompt 1、动机 1、ViLD使用的text embedding的方式是使用prompt template(a photo of categoryg in the scene)和同义词,然后输入clip text encoder 生成 text embedding,使用pro 阅读全文
摘要:
不引入caption数据,使用coco数据集,使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力(主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match),novel类检测能力通过伪novel类的框+推 阅读全文
摘要:
1、https://www.zhihu.com/follow 2、训练时目标网络 从源网络集成 网络层参数,单又涉及torch.float16到torch.float32转换 data_type = self.model.module.visual.attnpool.c_proj.weight.dt 阅读全文
摘要:
1、下载模型相关文件到本地路径 https://huggingface.co/bert-base-uncased/tree/main 2、修改模型加载,注释为修改前 阅读全文
摘要:
glove是用来生成词向量的 ,保存在一个txt格式的文件。glove.6B.XXXd.txt,中间XXX表示词向量的维度,截图如下: glove来源 谷歌 微软 百度公司 他们在大规模的语料上训练生成得到的 glove内容 每个单词一行,没有行格式为词名称+词向量 阅读全文
摘要:
1、基本介绍 MSCOCO 是具有80个类别的大规模数据集,其数据分为三部分:训练、验证和测试,每部分分别包含 118287, 5000 和 40670张图片,总大小约25g。其中测试数据集没有标注信息,所以注释部分只有训练和验证的。 关于COCO的测试集:2017年COCO测试集包含〜40K个测试 阅读全文
摘要:
使用单流和双流方式学习丰富的object语义,然后迁移到只需要单流的开集检测任务上 开集检测网络可以理解为: 类无关的视觉proposal提取+语义丰富的image embedding-text embedding空间的投射+多模态预训练模型分类器的生成;主要是学习第一和第二部分,第三部分用已有的C 阅读全文