随笔分类 -  CV

摘要:1、2022ECCV_MaskCLIP_Extract Free Dense Labels from CLIP 1.1 贡献 1.想要保留clip开集能力,image encoder和text encoder都不能动 2.探索CLIP模型细粒度特征表达能力的打开方法 2.CLIP模型在不加入参数情况 阅读全文 »
posted @ 2023-10-17 22:02 哈哈哈喽喽喽 阅读(50) 评论(0) 推荐(0) 编辑
摘要:# 1.开集分割 + 1、[SimSeg](https://zhuanlan.zhihu.com/p/479448100) + 2、[MaskCLIP](https://zhuanlan.zhihu.com/p/562819258) resnet输出的特征,经过2层1x1卷积(即2层投射层x->v_ 阅读全文 »
posted @ 2023-09-04 21:29 哈哈哈喽喽喽 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1、clip分析 原文:https://openai.com/research/multimodal-neurons 翻译:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/115314884 https://github.com/op 阅读全文 »
posted @ 2023-03-14 21:43 哈哈哈喽喽喽 阅读(222) 评论(0) 推荐(0) 编辑
摘要:1、蒸馏 https://neptune.ai/blog/optimizing-models-for-deployment-and-inference https://devopedia.org/knowledge-distillation https://raviteja-ganta.github 阅读全文 »
posted @ 2023-02-17 11:07 哈哈哈喽喽喽 阅读(51) 评论(0) 推荐(0) 编辑
摘要:一句话描述:ViLD基础上引入prompt 1、动机 2、方法 3、效果 4、消融实验 阅读全文 »
posted @ 2023-02-02 10:39 哈哈哈喽喽喽 阅读(15) 评论(0) 推荐(0) 编辑
摘要:0、图文多模态学习 包含以下: 普通多模态学习,如图文检索、视觉问答、视觉推理、视觉蕴含: CLIP language guided detection language guided segmentation 文本图像生成:Dall.E2, Stable Diffusion 文本视频生成 1、普通 阅读全文 »
posted @ 2022-12-16 19:20 哈哈哈喽喽喽 阅读(275) 评论(0) 推荐(0) 编辑
摘要:0、Abstract 自驾特征融合背景:自驾传感器方案由复杂的多个摄像头,激光雷达,rada等组成, 而融合多个传感器输入到统一视图的表示特征至关重要 BEV感知实现特征融合好处:BEV特征表示是 融合好的和直观的(可以直接在规控中使用) BEV感知核心问题: (a)如何通过透视视图到BEV的视图变 阅读全文 »
posted @ 2022-12-05 21:25 哈哈哈喽喽喽 阅读(1708) 评论(0) 推荐(0) 编辑
摘要:1/Prompt-to-Prompt Image Editing with Cross Attention Control 阅读全文 »
posted @ 2022-11-29 19:35 哈哈哈喽喽喽 阅读(14) 评论(0) 推荐(0) 编辑
摘要:语义分割、实例分割、全景分割的概念理解 阅读全文 »
posted @ 2022-11-08 20:22 哈哈哈喽喽喽 阅读(17) 评论(0) 推荐(0) 编辑
摘要:1、QKV作用? 1、QKV都是输入经过线性投影获得,假设句子为"good morning,sir",句子有4个token; 通过这4个token线性投影获得的QKV的embeding长度都是4,维度可能不一样,即Q.shape=(4, dq), K.shape=(4,dk), V.shape=(4 阅读全文 »
posted @ 2022-10-18 21:19 哈哈哈喽喽喽 阅读(445) 评论(0) 推荐(0) 编辑
摘要:关于视觉识别领域发展的个人观点-谢凌曦 图像不是2D的,而是… 阅读全文 »
posted @ 2022-08-31 11:36 哈哈哈喽喽喽 阅读(81) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/79521655 视频分类/行为识别是计算机视觉领域中非常有挑战性的课题,因为其不仅仅要分析目标体的空间信息,还要分析时间维度上的信息,如何更好的提取出空间-时间特征是问题的关键。本文总结了该领域的技术进展和相关数据集,技术进展从传统特征法到 阅读全文 »
posted @ 2022-08-04 11:45 哈哈哈喽喽喽 阅读(114) 评论(0) 推荐(0) 编辑
摘要:#0、LiDAR 数据格式:3D点云;每一个点除了包含X,Y,Z坐标,还包含一个反射强度R,类似与毫米波雷达里的RCS 1、3D OD算法(https://zhuanlan.zhihu.com/p/390156904, https://zhuanlan.zhihu.com/p/412161451) 阅读全文 »
posted @ 2022-06-29 20:33 哈哈哈喽喽喽 阅读(267) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/34472945 1、PANet改进了主干网络结构,加强了特征金字塔的结构,缩短了高低层特征融合的路径; 2、提出了更灵活的RoI池化。之前FPN的RoI池化只从高层特征取值,现在则在各个尺度上的特征里操作; 3、预测mask的时候使用一个额 阅读全文 »
posted @ 2021-11-09 21:52 哈哈哈喽喽喽 阅读(213) 评论(0) 推荐(0) 编辑
摘要:解决的问题 1、训练和测试常见的CNN网络时,要求输入的图像有一个固定的大小(网络前面的卷积层不要求输入图像的大小,后面的全连接层的输入特征数是固定的,需要固定的输入),比如要求图像的输入为224*224 * 当尺寸大小不同的图像输入到相同的多层卷积网络中,得到的feature map大小是不同的, 阅读全文 »
posted @ 2021-11-09 18:20 哈哈哈喽喽喽 阅读(79) 评论(0) 推荐(0) 编辑
摘要:https://zhuanlan.zhihu.com/p/95952096 阅读全文 »
posted @ 2021-10-21 19:54 哈哈哈喽喽喽 阅读(23) 评论(0) 推荐(0) 编辑
摘要:1、jpg为有损压缩(表现为解压再压缩值不相等),尽量使用png格式 https://blog.csdn.net/u013925378/article/details/104814001 2、图像保存的格式为 高×宽×颜色通道,但是 cv2.resize这个api却是个小例外。因为它的参数输入却是 阅读全文 »
posted @ 2021-10-11 10:58 哈哈哈喽喽喽 阅读(41) 评论(0) 推荐(0) 编辑
摘要:深度估计 AP解释https://www.zhihu.com/question/53405779 yolov4中的route和shortcut层 双线性插值https://blog.csdn.net/qq_14845119/article/details/107557449 Focal Loss 相 阅读全文 »
posted @ 2021-09-15 19:28 哈哈哈喽喽喽 阅读(249) 评论(0) 推荐(0) 编辑
摘要:https://arxiv.org/pdf/2103.09460.pdf 主要贡献: 1、重新思考了FPN网络在目标检测效果好的原因,多尺度目标检测问题分而治之解决思路(不同尺度通过不同的感受野特征检测)大于多尺度特征融合 2、基于优化的角度,提出YOLOF替代FPN网络的复杂特征金字塔,它包含两个 阅读全文 »
posted @ 2021-09-13 22:21 哈哈哈喽喽喽 阅读(108) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示