08 2022 档案
发表于 2022-08-31 11:36阅读:81评论:0推荐:0
摘要:关于视觉识别领域发展的个人观点-谢凌曦 图像不是2D的,而是…
阅读全文 »
发表于 2022-08-30 22:01阅读:259评论:0推荐:0
摘要:caption数据+DETR做开集检测 1、动机 1、只在固定object和属性上训练,解决不了长尾的问题/开集 2、方法 2.1 优势 1、MDETR仅依赖于文本和对齐的框作为图像中概念形式进行监督;不像目标检测,这个文本概念是free-form,因此可以泛化到unseen 目标或者属性 2.2
阅读全文 »
发表于 2022-08-30 17:53阅读:301评论:0推荐:0
摘要:CoOp训练 1.准备训练数据,按照每个类别分文件夹存放 2.datasets增加数据定义文件 CoOp-main\configs\datasets 3.增加数据加载处理文件,可参考dtd.py 4.修改CoOp-main\scripts\coop\main.sh中的 DATA数据目录 DIR工作目
阅读全文 »
发表于 2022-08-24 11:14阅读:530评论:0推荐:0
摘要:ViLD基础上引入prompt 1、动机 1、ViLD使用的text embedding的方式是使用prompt template(a photo of categoryg in the scene)和同义词,然后输入clip text encoder 生成 text embedding,使用pro
阅读全文 »
发表于 2022-08-18 21:50阅读:778评论:0推荐:0
摘要:不引入caption数据,使用coco数据集,使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力(主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match),novel类检测能力通过伪novel类的框+推
阅读全文 »
发表于 2022-08-17 12:46阅读:25评论:0推荐:0
摘要:1、https://www.zhihu.com/follow 2、训练时目标网络 从源网络集成 网络层参数,单又涉及torch.float16到torch.float32转换 data_type = self.model.module.visual.attnpool.c_proj.weight.dt
阅读全文 »
发表于 2022-08-15 20:23阅读:921评论:0推荐:0
摘要:1、下载模型相关文件到本地路径 https://huggingface.co/bert-base-uncased/tree/main 2、修改模型加载,注释为修改前
阅读全文 »
发表于 2022-08-15 17:38阅读:109评论:0推荐:0
摘要:glove是用来生成词向量的 ,保存在一个txt格式的文件。glove.6B.XXXd.txt,中间XXX表示词向量的维度,截图如下: glove来源 谷歌 微软 百度公司 他们在大规模的语料上训练生成得到的 glove内容 每个单词一行,没有行格式为词名称+词向量
阅读全文 »
发表于 2022-08-15 16:50阅读:1584评论:0推荐:0
摘要:1、基本介绍 MSCOCO 是具有80个类别的大规模数据集,其数据分为三部分:训练、验证和测试,每部分分别包含 118287, 5000 和 40670张图片,总大小约25g。其中测试数据集没有标注信息,所以注释部分只有训练和验证的。 关于COCO的测试集:2017年COCO测试集包含〜40K个测试
阅读全文 »
发表于 2022-08-12 16:30阅读:200评论:0推荐:0
摘要:使用单流和双流方式学习丰富的object语义,然后迁移到只需要单流的开集检测任务上 开集检测网络可以理解为: 类无关的视觉proposal提取+语义丰富的image embedding-text embedding空间的投射+多模态预训练模型分类器的生成;主要是学习第一和第二部分,第三部分用已有的C
阅读全文 »
发表于 2022-08-12 11:04阅读:375评论:0推荐:0
摘要:利用图文大模型给caption数据打bbox伪标签扩展数据,进而训练开集检测模型 1、动机 开集检测,在大规模caption数据集上预训练的网络有很强的开放分类能力,所以需要使用caption数据,但是caption数据没有box,所有怎么自动化生成caption的box信息 2、方法 2.1、伪b
阅读全文 »
发表于 2022-08-11 20:47阅读:319评论:0推荐:0
摘要:使用image-text pair数据+anation数据训练的2阶段检测模型FastRCNN,具有开集检测能力 1、动机 引入image-text pair LAION-400M数据集,训练开集检测模型 2、模型 2阶段检测模型Fast RCNN,分类层换成CLIP模型text encoder生成
阅读全文 »
发表于 2022-08-10 17:34阅读:178评论:0推荐:0
摘要:1、问题setting定义 作者还特地比了一下三种setting,OVD跟ZSD的区别应该就是在训练时,OVD可能会用到target类的embedding信息(当然只是说这些embedding信息可能包含在一堆caption中,谁也不知道里面有没有target信息,肯定不能给target类的bbox
阅读全文 »
发表于 2022-08-09 18:49阅读:13评论:0推荐:0
摘要:中国光伏行业协会CPIA 光伏领域:https://m.solarbe.com/21-0-356259-1.html 风电:https://news.bjx.com.cn/html/20210412/1146649.shtml 01 国内咨询机构 艾瑞网:http://report.iresearc
阅读全文 »
发表于 2022-08-08 22:22阅读:749评论:0推荐:0
摘要:一句话概括:既GLIP统一了目标检测和phrase grounding任务,GLIP2进一步统一了VL理解任务(VQA和caption);好处是:VL learn任务给phase grounding带来的好处,是grounding性能更好了;phase grounding任务给VL learn带来的
阅读全文 »
发表于 2022-08-08 11:15阅读:410评论:0推荐:0
摘要:FPN(Feature Pyramid Network特征金字塔)是解决多尺度问题的不二之选,至被提出以来,一直占据着模型的Neck层,faster rcnn、retinanet、FCOS、YOLO。几乎所有耳熟能详的基于CNN的目标检测模型都离不开FPN,也有很多工作是对FPN的魔改,如PAN(P
阅读全文 »
发表于 2022-08-05 21:19阅读:144评论:0推荐:0
摘要:1、安装 pip install nltk 2、下载wordnet组件 import nltk nltk.download('wordnet') 可以从这里 https://blog.csdn.net/RainyD4y/article/details/106970593 下载后放在相应位置 3、使用
阅读全文 »
发表于 2022-08-05 19:14阅读:877评论:0推荐:0
摘要:1、在线安装报错,使用离线安装方式,从下面下载离线包,直接pip install即可 https://download.openmmlab.com/mmcv/dist/cu102/torch1.8.0/index.html 2、安装完会出现cv2包异常 解决办法是apt-get install -y
阅读全文 »
发表于 2022-08-05 16:14阅读:100评论:0推荐:0
摘要:隐藏光标 echo -e "\033[?25l" 显示光标 echo -e "\033[?25h"
阅读全文 »
发表于 2022-08-04 11:45阅读:114评论:0推荐:0
摘要:https://zhuanlan.zhihu.com/p/79521655 视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到
阅读全文 »
发表于 2022-08-03 15:50阅读:701评论:0推荐:0
摘要:一句话概括:多模态目标检测 1、问题 1、类似CLIP多模态模型只做到文本图片后融合的对齐,没有图片细粒度的object级别的细粒度语义表征能力 2、MDETR没有统一目标检测和已有的多模态任务grounding 2、介绍和实现 CLIP由于训练集image-text pair比任何已有的anati
阅读全文 »
发表于 2022-08-01 11:48阅读:211评论:0推荐:0
摘要:0.问题确认 0.0 梯度消失 模型无法从训练数据中获得更新,损失几乎保持不变 打印梯度值,梯度值为0或者非常小,比如 -->grad_value: tensor(3.1044e-10, device='cuda:0') for name, parms in self.model.named_par
阅读全文 »