Lhiker - 博客园

2022年4月9日

SF-Net：Single-Frame Supervision for Temporal Action Localization流程概述

摘要： 1.针对的问题在动作定位领域，全监督标注困难，成本较高，而弱监督性能较差，特别是难度比较大的数据集上几乎失效，在之前已经有人在动作识别领域使用了单帧监督，作者进行了拓展，利用单帧监督进行动作定位。 2.主要贡献（1）第一次使用单帧监督来解决动作时间边界定位问题。与完全监督标注相比，单帧标注显著阅读全文

posted @ 2022-04-09 16:46 Lhiker 阅读(180) 评论(0) 推荐(0)

2022年4月8日

遇到的问题

摘要： 1.ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.22' not found 具体问题如下：这个问题网上有解决的教程，见CSDN，不过由于我是在服务器上运行，除了我自己的文件外都没有操作权限，阅读全文

posted @ 2022-04-08 14:00 Lhiker 阅读(1025) 评论(0) 推荐(0)

2022年3月8日

ACGNet Action Complement Graph Network for Weakly-supervised Temporal Action Localization概述

摘要： 1.针对的问题现有WTAL方法通常利用现成的段级特征，这些特征存在空间不完整性和时间不一致性，具体来说，空间不完整性指动作片段经常会出现遮挡、模糊、外场等问题，因此缺乏特定的空间细节，时间不一致性指一个完整的动作通常跨越一个较长的时间窗口，而一个较短的动作片段不足以观察该动作的全部动态，这限制了这阅读全文

posted @ 2022-03-08 15:25 Lhiker 阅读(238) 评论(0) 推荐(0)

2022年3月4日

补充知识总结

摘要： 1.SE不适定问题(ill-posed problem)：是数学领域的术语。在计算机视觉领域，Jaeyoung在CVPR的论文中这样描述CV中的不适定问题：这种不适定问题就是：一个输入图像会对应多个合理输出图像，而这个问题可以看作是从多个输出中选出最合适的那一个。 2.few-shot learn 阅读全文

posted @ 2022-03-04 12:57 Lhiker 阅读(386) 评论(0) 推荐(0)

2022年2月26日

A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action Localization概述

摘要： 1.针对的问题大多数现有的WTAL方法依赖于多示例学习（MIL）范式，然而，现有的基于MIL的方法有两个局限性（1）即只捕获动作中最具辨别力的帧，而忽略活动的全部范围。（2）这些方法不能有效地对背景活动进行建模，这在定位前景活动方面起着重要作用。 2.主要贡献（1）提出了一个新的框架，其中包阅读全文

posted @ 2022-02-26 18:49 Lhiker 阅读(349) 评论(0) 推荐(0)

2021年12月10日

step，epoch，batch size和显存

摘要：显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用时间更宝贵，尽可能使模型变快（减少 flop）显存占用不是和 batch size 简单成正比，模型自身的参数及其延伸出来的数据也要占据显存batch size 越大，速度未必越快。在你充分利用计算资源的时候，加大 batc 阅读全文

posted @ 2021-12-10 21:09 Lhiker 阅读(2775) 评论(0) 推荐(0)

2021年12月7日

对Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning的进一步总结

摘要：传统异常检测的方法对阳性示例的识别，即异常视频中罕见的异常片段，在很大程度上受到优势负示例的影响，特别是当异常事件是细微的异常，与正常事件相比只有微小的差异时。为了解决这一问题，论文中引入了一种新的、理论上健全的方法，称为鲁棒时间特征幅值学习(RTFM)，RTFM是基于top-k示例MIL，其最大特阅读全文

posted @ 2021-12-07 16:33 Lhiker 阅读(741) 评论(0) 推荐(0)

2021年12月2日

对Weakly Supervised Relative Spatial Reasoning for Visual Question Answering的进一步总结

摘要：作者研究了VQA模型是否能够解决GQA挑战中图像中物体之间的空间关系问题。研究结果表明，尽管模型正确地回答了其中一些问题（∼60%），但它们不能真实地解决空间关系问题，这就引出了一个问题：VQA模型是否真的理解了场景的几何形状，或者它们是否基于从数据中学习到的虚假相关性来回答空间问题？基于此，作者设阅读全文

posted @ 2021-12-02 14:47 Lhiker 阅读(109) 评论(0) 推荐(0)

2021年11月19日

对Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的进一步总结

摘要：利用来自自然语言句子描述的带有动词和名词短语标注的视频，以弱监督的方式检测视频中的人-物交互，并检测视频多帧中的人和物体边界框，这里的弱监督指的是在训练时不需要边界框注释，同时，允许以零次学习的方式检测罕见和未见过的人-物交互。主要创新点：引入了一种对比性的弱监督训练损失，可以在无边界框标注的情况阅读全文

posted @ 2021-11-19 17:04 Lhiker 阅读(130) 评论(0) 推荐(0)

自由方向

公告