随笔分类 - Paper
发表于 2022-10-11 21:49阅读:5评论:0推荐:0
摘要:Nerf http://www.liuxiao.org/2021/11/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0%EF%BC%9Anerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis
阅读全文 »
发表于 2022-08-24 11:14阅读:530评论:0推荐:0
摘要:ViLD基础上引入prompt 1、动机 1、ViLD使用的text embedding的方式是使用prompt template(a photo of categoryg in the scene)和同义词,然后输入clip text encoder 生成 text embedding,使用pro
阅读全文 »
发表于 2022-08-18 21:50阅读:778评论:0推荐:0
摘要:不引入caption数据,使用coco数据集,使用CLIP 作为teacher模型蒸馏出Mask RCNN模型的检测能力(主要是训练出Mask RCNN能提取出类无关的box和该box的特征能和CLIP text embedding能很好的match),novel类检测能力通过伪novel类的框+推
阅读全文 »
发表于 2022-08-12 16:30阅读:200评论:0推荐:0
摘要:使用单流和双流方式学习丰富的object语义,然后迁移到只需要单流的开集检测任务上 开集检测网络可以理解为: 类无关的视觉proposal提取+语义丰富的image embedding-text embedding空间的投射+多模态预训练模型分类器的生成;主要是学习第一和第二部分,第三部分用已有的C
阅读全文 »
发表于 2022-08-10 17:34阅读:178评论:0推荐:0
摘要:1、问题setting定义 作者还特地比了一下三种setting,OVD跟ZSD的区别应该就是在训练时,OVD可能会用到target类的embedding信息(当然只是说这些embedding信息可能包含在一堆caption中,谁也不知道里面有没有target信息,肯定不能给target类的bbox
阅读全文 »
发表于 2022-08-08 22:22阅读:749评论:0推荐:0
摘要:一句话概括:既GLIP统一了目标检测和phrase grounding任务,GLIP2进一步统一了VL理解任务(VQA和caption);好处是:VL learn任务给phase grounding带来的好处,是grounding性能更好了;phase grounding任务给VL learn带来的
阅读全文 »
发表于 2022-08-03 15:50阅读:701评论:0推荐:0
摘要:一句话概括:多模态目标检测 1、问题 1、类似CLIP多模态模型只做到文本图片后融合的对齐,没有图片细粒度的object级别的细粒度语义表征能力 2、MDETR没有统一目标检测和已有的多模态任务grounding 2、介绍和实现 CLIP由于训练集image-text pair比任何已有的anati
阅读全文 »
发表于 2021-11-14 23:49阅读:337评论:0推荐:0
摘要:本文提出了一种用于目标检测的数据增强策略,定义了一个新的尺度感知搜索空间,其中图像级和框级增强都旨在保持尺度不变性。在这个搜索空间上,本文提出了一种新的搜索指标,称为帕累托规模均衡(Pareto Scale Balance),以促进高效搜索。在实验中,即使与强大的多尺度训练基线相比,尺度感知自动增强
阅读全文 »
发表于 2021-10-22 11:19阅读:30评论:0推荐:0
摘要:1、余弦退火https://arxiv.org/pdf/1812.01187.pdf Learning rate adjustment is crucial to the training. After the learning rate warmup described in Section 3.
阅读全文 »
发表于 2021-10-09 00:40阅读:202评论:0推荐:0
摘要:问题: 1、大型神经网络学习速度很快,性能也往往优于其他较小的模型,但它们对资源的巨大需求限制了其在现实世界的部署,所以当部署网络到资源有限的设备上,需要对网络进行剪枝(识别和剪枝冗余的结构),使性能几乎无损失情况下,网络更苗条更简单。 2、剪枝方法:a、采用L1或L2正则化的细粒度剪枝方法,根据一
阅读全文 »
发表于 2021-09-27 00:44阅读:42评论:0推荐:0
摘要:常用的基线RGBD数据集 1、Make3D 534张户外图和定制三维扫描仪扫描出来的深度图,缺点是: 场景不丰富,深度图分辨率低 2、Kitti 车捕捉的街景,RGB图+激光扫描器扫出来的深度图,缺点是: 深度图分辨率低,且深度图间隔无规则且稀疏 3、NYU depth v2 使用较多,464张室内
阅读全文 »
发表于 2021-09-13 17:15阅读:132评论:0推荐:0
摘要:https://arxiv.org/abs/1905.11946 卷积神经网络(ConvNets)通常是在固定的资源预算下发展起来的,如果有更多的资源可用的话,则会扩大规模以获得更好的精度,更大的网络具有更大的宽度、深度或分辨率,往往可以获得更高的精度,但精度增益在达到80%后会迅速饱和,这表明了只
阅读全文 »
发表于 2021-09-09 11:41阅读:147评论:0推荐:0
摘要:卷积神经网络(CNNs)的核心模块其实就是卷积操作,该操作通过融合每一层局部感受野的空间和不同通道信息来构建特征。在此之前,已经有很多的研究来实践空间的信息融合问题,希望通过去融合不同层级的特征从而增强CNNs的特征表达能力。在我们本次的工作中,我们专注于去研究不同通道之间的关系,并提出了一种新颖的
阅读全文 »
发表于 2021-09-05 23:40阅读:202评论:0推荐:0
摘要:https://zhuanlan.zhihu.com/p/344324470 VGG-16在加上BN等组件,ImageNet最好性能是 72% top-1 accuracy。 ** 主要贡献是: 1、CNN现状:在VGG模型在ImageNet分类 top-1精准率大于70%之后,为了达到更好的性能,
阅读全文 »