哪有什么岁月静好,不过是有人替你负重前行!
摘要: 1.针对的问题 在动作定位领域,全监督标注困难,成本较高,而弱监督性能较差,特别是难度比较大的数据集上几乎失效,在之前已经有人在动作识别领域使用了单帧监督,作者进行了拓展,利用单帧监督进行动作定位。 2.主要贡献 (1) 第一次使用单帧监督来解决动作时间边界定位问题。与完全监督标注相比,单帧标注显著 阅读全文
posted @ 2022-04-09 16:46 Lhiker 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 1.ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.22' not found 具体问题如下: 这个问题网上有解决的教程,见CSDN,不过由于我是在服务器上运行,除了我自己的文件外都没有操作权限, 阅读全文
posted @ 2022-04-08 14:00 Lhiker 阅读(773) 评论(0) 推荐(0) 编辑
摘要: 1.针对的问题 现有WTAL方法通常利用现成的段级特征,这些特征存在空间不完整性和时间不一致性,具体来说,空间不完整性指动作片段经常会出现遮挡、模糊、外场等问题,因此缺乏特定的空间细节,时间不一致性指一个完整的动作通常跨越一个较长的时间窗口,而一个较短的动作片段不足以观察该动作的全部动态,这限制了这 阅读全文
posted @ 2022-03-08 15:25 Lhiker 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1.SE不适定问题(ill-posed problem): 是数学领域的术语。在计算机视觉领域,Jaeyoung在CVPR的论文中这样描述CV中的不适定问题:这种不适定问题就是:一个输入图像会对应多个合理输出图像,而这个问题可以看作是从多个输出中选出最合适的那一个。 2.few-shot learn 阅读全文
posted @ 2022-03-04 12:57 Lhiker 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 1.针对的问题 大多数现有的WTAL方法依赖于多示例学习(MIL)范式,然而,现有的基于MIL的方法有两个局限性 (1)即只捕获动作中最具辨别力的帧,而忽略活动的全部范围。 (2)这些方法不能有效地对背景活动进行建模,这在定位前景活动方面起着重要作用。 2.主要贡献 (1)提出了一个新的框架,其中包 阅读全文
posted @ 2022-02-26 18:49 Lhiker 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用时间更宝贵,尽可能使模型变快(减少 flop)显存占用不是和 batch size 简单成正比,模型自身的参数及其延伸出来的数据也要占据显存batch size 越大,速度未必越快。在你充分利用计算资源的时候,加大 batc 阅读全文
posted @ 2021-12-10 21:09 Lhiker 阅读(2370) 评论(0) 推荐(0) 编辑
摘要: 传统异常检测的方法对阳性示例的识别,即异常视频中罕见的异常片段,在很大程度上受到优势负示例的影响,特别是当异常事件是细微的异常,与正常事件相比只有微小的差异时。为了解决这一问题,论文中引入了一种新的、理论上健全的方法,称为鲁棒时间特征幅值学习(RTFM),RTFM是基于top-k示例MIL,其最大特 阅读全文
posted @ 2021-12-07 16:33 Lhiker 阅读(659) 评论(0) 推荐(0) 编辑
摘要: 作者研究了VQA模型是否能够解决GQA挑战中图像中物体之间的空间关系问题。研究结果表明,尽管模型正确地回答了其中一些问题(∼60%),但它们不能真实地解决空间关系问题,这就引出了一个问题:VQA模型是否真的理解了场景的几何形状,或者它们是否基于从数据中学习到的虚假相关性来回答空间问题?基于此,作者设 阅读全文
posted @ 2021-12-02 14:47 Lhiker 阅读(73) 评论(0) 推荐(0) 编辑
摘要: 利用来自自然语言句子描述的带有动词和名词短语标注的视频,以弱监督的方式检测视频中的人-物交互,并检测视频多帧中的人和物体边界框,这里的弱监督指的是在训练时不需要边界框注释,同时,允许以零次学习的方式检测罕见和未见过的人-物交互。 主要创新点:引入了一种对比性的弱监督训练损失,可以在无边界框标注的情况 阅读全文
posted @ 2021-11-19 17:04 Lhiker 阅读(104) 评论(0) 推荐(0) 编辑