哪有什么岁月静好,不过是有人替你负重前行!
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督时序动作定位 发表时间:CVPR2022(2022.3.14) 1.针对的问题 许多现有的方法试图生成伪标签来弥补分类和定位之间的差异,但通常只使用有限的上下文信息,即每个片段内的信息,来生成伪标签。 2.主要贡献 阅读全文
posted @ 2023-05-22 18:14 Lhiker 阅读(113) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督语义分割 发表时间: CVPR 2022(2022.3.5) 1.针对的问题 目前主流的弱监督语义分割方法通常首先训练分类模型,基于类别激活图(CAM)或其变种生成初始伪标签;然后对伪标签进行细化作为监督信息训练一 阅读全文
posted @ 2023-05-22 11:00 Lhiker 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督时序动作定位 发表时间:CVPR2023(2023.5.1) 1.针对的问题 由于缺乏时间标注,当前的弱监督时间动作定位方法通常陷入over-complete或不完全定位。本文旨在从两个方面来利用文本信息来提升WT 阅读全文
posted @ 2023-05-13 15:06 Lhiker 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: paper github 论文解读 论文基本信息: 领域:弱监督时序动作定位 发表时间:WACV 2023(2023.2.6) 1.针对的问题 现有方法通常直接使用从预训练的提取器中提取到的片段级RGB和光流特征。由于片段的时间跨度短和初始特征不合适这两个方面的限制,这些WTA 阅读全文
posted @ 2023-05-11 19:40 Lhiker 阅读(67) 评论(0) 推荐(0) 编辑
摘要: 1.针对的问题 在弱监督时序动作定位领域提出了一些帧监督的方法,但是由于标签稀疏性,现有的工作无法学习动作的完整性,动作预测零碎,导致在高IoU阈值的情况下表现较差。作者试图通过生成密集的伪标签,为模型提供完整性指导。 2.主要贡献 •引入了一个新的框架,其中生成了密集的最优序列,以在点监督设置下为 阅读全文
posted @ 2023-03-22 14:50 Lhiker 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读(知乎,CSDN) 论文基本信息: 领域:视频自监督表示学习 发表时间:NeurIPS 2022(2022.3.23) 1.针对的问题 视频存在非常多的冗余信息,所以,对视频的处理需要非常大的计算资源,transformer需要非常多的额外训练 阅读全文
posted @ 2023-03-01 17:00 Lhiker 阅读(407) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 发表时间:NeurlPS2022(2022.10.13) 1.摘要 最近,基于Transformer的网络在语义分割方面取得了令人印象深刻的结果。然而在实时语义分割方面,由于Transformer的计算机制耗时,纯基于cnn的 阅读全文
posted @ 2022-10-26 16:08 Lhiker 阅读(567) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 发表时间:arxiv2022(2022.9.16) 1.针对的问题 CNN虽然效率更高,能够建模局部关系,易于训练,收敛速度快。然而,它们大多采用静态权重,限制了它们的表示能力和通用性。而全局注意力机制虽然提供了动态权重,能从 阅读全文
posted @ 2022-10-24 20:47 Lhiker 阅读(707) 评论(1) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 发表时间:arxiv2022(2022.6.21) 1.针对的问题 视觉transformer计算复杂度和内存占用都是二次的,这主要是softmax归一化导致的,这使其无法处理高分辨率图像或细粒度图像patch。 2.主要贡献 阅读全文
posted @ 2022-10-17 09:48 Lhiker 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读(CSDN) 论文基本信息: 作者单位:Facebook 发表时间:arxiv2022(2022.4.14) 1.针对的问题 1.之前的视觉Transformer关于嵌入维数(不包括线性投影)是线性的,但相对于token的数量是二次的,而在视觉 阅读全文
posted @ 2022-10-15 16:18 Lhiker 阅读(331) 评论(0) 推荐(0) 编辑