Lhiker - 博客园

2023年5月22日

Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：领域：弱监督时序动作定位发表时间：CVPR2022(2022.3.14) 1.针对的问题许多现有的方法试图生成伪标签来弥补分类和定位之间的差异，但通常只使用有限的上下文信息，即每个片段内的信息，来生成伪标签。 2.主要贡献阅读全文

posted @ 2023-05-22 18:14 Lhiker 阅读(113) 评论(0) 推荐(0) 编辑

Learning Affinity from Attention: End-to-End Weakly-Supervised Semantic Segmentation with Transformers概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：领域：弱监督语义分割发表时间： CVPR 2022(2022.3.5) 1.针对的问题目前主流的弱监督语义分割方法通常首先训练分类模型，基于类别激活图（CAM）或其变种生成初始伪标签；然后对伪标签进行细化作为监督信息训练一阅读全文

posted @ 2023-05-22 11:00 Lhiker 阅读(227) 评论(0) 推荐(0) 编辑

2023年5月13日

Boosting Weakly-Supervised Temporal Action Localization with Text Information概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：领域：弱监督时序动作定位发表时间：CVPR2023(2023.5.1) 1.针对的问题由于缺乏时间标注，当前的弱监督时间动作定位方法通常陷入over-complete或不完全定位。本文旨在从两个方面来利用文本信息来提升WT 阅读全文

posted @ 2023-05-13 15:06 Lhiker 阅读(153) 评论(0) 推荐(0) 编辑

2023年5月11日

Temporal Feature Enhancement Dilated Convolution Network for Weakly-Supervised Temporal Action Localization概述

摘要： 0.前言相关资料： paper github 论文解读论文基本信息：领域：弱监督时序动作定位发表时间：WACV 2023(2023.2.6) 1.针对的问题现有方法通常直接使用从预训练的提取器中提取到的片段级RGB和光流特征。由于片段的时间跨度短和初始特征不合适这两个方面的限制，这些WTA 阅读全文

posted @ 2023-05-11 19:40 Lhiker 阅读(67) 评论(0) 推荐(0) 编辑

2023年3月22日

Learning Action Completeness from Points for Weakly-supervised Temporal Action Localization概述

摘要： 1.针对的问题在弱监督时序动作定位领域提出了一些帧监督的方法，但是由于标签稀疏性，现有的工作无法学习动作的完整性，动作预测零碎，导致在高IoU阈值的情况下表现较差。作者试图通过生成密集的伪标签，为模型提供完整性指导。 2.主要贡献 •引入了一个新的框架，其中生成了密集的最优序列，以在点监督设置下为阅读全文

posted @ 2023-03-22 14:50 Lhiker 阅读(68) 评论(0) 推荐(0) 编辑

2023年3月1日

VideoMAE Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training概述

摘要： 0.前言相关资料： arxiv github 论文解读(知乎，CSDN) 论文基本信息：领域：视频自监督表示学习发表时间：NeurIPS 2022(2022.3.23) 1.针对的问题视频存在非常多的冗余信息，所以，对视频的处理需要非常大的计算资源，transformer需要非常多的额外训练阅读全文

posted @ 2023-03-01 17:00 Lhiker 阅读(407) 评论(0) 推荐(0) 编辑

2022年10月26日

RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：发表时间：NeurlPS2022(2022.10.13) 1.摘要最近，基于Transformer的网络在语义分割方面取得了令人印象深刻的结果。然而在实时语义分割方面，由于Transformer的计算机制耗时，纯基于cnn的阅读全文

posted @ 2022-10-26 16:08 Lhiker 阅读(567) 评论(0) 推荐(0) 编辑

2022年10月24日

ConvFormer: Closing the Gap Between CNN and Vision Transformers概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：发表时间：arxiv2022(2022.9.16) 1.针对的问题 CNN虽然效率更高，能够建模局部关系，易于训练，收敛速度快。然而，它们大多采用静态权重，限制了它们的表示能力和通用性。而全局注意力机制虽然提供了动态权重，能从阅读全文

posted @ 2022-10-24 20:47 Lhiker 阅读(707) 评论(1) 推荐(0) 编辑

2022年10月17日

Vicinity Vision Transformer概述

摘要： 0.前言相关资料： arxiv github 论文解读论文基本信息：发表时间：arxiv2022(2022.6.21) 1.针对的问题视觉transformer计算复杂度和内存占用都是二次的，这主要是softmax归一化导致的，这使其无法处理高分辨率图像或细粒度图像patch。 2.主要贡献阅读全文

posted @ 2022-10-17 09:48 Lhiker 阅读(222) 评论(0) 推荐(0) 编辑

2022年10月15日

Neighborhood Attention Transformer概述

摘要： 0.前言相关资料： arxiv github 论文解读(CSDN) 论文基本信息：作者单位：Facebook 发表时间：arxiv2022(2022.4.14) 1.针对的问题 1.之前的视觉Transformer关于嵌入维数(不包括线性投影)是线性的，但相对于token的数量是二次的，而在视觉阅读全文

posted @ 2022-10-15 16:18 Lhiker 阅读(331) 评论(0) 推荐(0) 编辑

自由方向

公告