哪有什么岁月静好,不过是有人替你负重前行!
摘要: 1.图像生成 1.1CLIPasso(semantically-aware object sketching) 将物体的照片变成简笔画的形式,希望即使有最少的线条,也能识别出来物体。 问题定义,在纸上画几条随机初始化的曲线(bezier curve),通过不断的训练,希望这些曲线最后变成简笔画,贝兹 阅读全文
posted @ 2022-09-26 16:53 Lhiker 阅读(1554) 评论(0) 推荐(0) 编辑
摘要: 看了跟李沐学AI系列朱毅老师讲的CLIP改进工作串讲,这里记录一下。 1.分割 分割的任务其实跟分类很像,其实就是把图片上的分类变成像素级别上的分类,但是往往图片上能用的技术都能用到像素级别上来。所以分割的论文很多。 1.1.LSeg(language-driven semantic segment 阅读全文
posted @ 2022-09-22 15:27 Lhiker 阅读(1774) 评论(0) 推荐(0) 编辑
摘要: 1.针对的问题 为了在未修剪视频中建模时间关系,以前的多种方法使用一维时间卷积。然而,受核大小的限制,基于卷积的方法只能直接获取视频的局部信息,不能学习视频中时间距离较远的片段之间的直接关系。因此,这种方法不能模拟片段之间的远程交互作用,而这对动作检测可能很重要。 多头自注意力虽然可以对视频中的长期 阅读全文
posted @ 2022-09-02 20:26 Lhiker 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督时序动作定位 发表时间:CVPR2022(2022.3.31) 1.针对的问题 现有的方法主要遵循于通过优化视频级分类目标来实现定位的方式,这些方法大多忽略了视频之间丰富的时序对比关系,因此在分类学习和分类-定位自 阅读全文
posted @ 2022-08-19 20:02 Lhiker 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: arxiv github 论文解读 论文基本信息: 领域:弱监督时序动作检测 发表时序:ECCV2022(2022.7.17) 1.针对的问题 现有的方法在推断时只能识别之前见过的类别,即训练时出现过的类别,而为每个感兴趣的类收集和注释大型训练集是昂贵的。 2.主要贡献 (1) 阅读全文
posted @ 2022-08-11 15:40 Lhiker 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 看了朱毅老师在B站讲的对比学习论文综述,这里稍微总结一下。视频,笔记 第一阶段:百花齐放 InstDisc(Unsupervised Feature Learning via Non-Parametric Instance Discrimination) 引入个体判别代理任务,正样本就是这个图片本身 阅读全文
posted @ 2022-08-04 16:27 Lhiker 阅读(1133) 评论(0) 推荐(0) 编辑
摘要: 1.针对的问题 目前大多数弱监督动作定位方法通常依赖于分离前景和背景区域(前-背景分离)学习TCAMs,但是在弱监督设置下,学习到的TCAM会存在噪声,而这些方法并没有明确地处理其噪声输出。 2.主要贡献 •引入了一个判别损失项,它同时进行视频分类和增强的前背景分离。 •引入去噪损失项来提高TCAM 阅读全文
posted @ 2022-07-29 16:08 Lhiker 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: paper 网站 论文解读(知乎,CSDN) 论文基本信息: 领域:弱监督动作定位 发表时间:ICCV2017 1.针对的问题 大多数网络只识别图像最具有鉴别力的部分,不是所有相关的部分,导致性能不佳。 2.主要贡献 1)引入了弱监督定位的Hide-and-Seek思想,并在I 阅读全文
posted @ 2022-06-20 15:28 Lhiker 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 0. 前言 相关资料: arxiv github 论文解读1,论文解读2 论文基本信息: 领域:弱监督时序行为定位 发表时间:AAAI 2020(2019.11.22) 1.针对的问题 弱监督视频动作定位中,这篇论文之前的方法聚合帧级别的类分数,以产生视频级别的预测并从视频级别的动作中学习。此方法无 阅读全文
posted @ 2022-06-17 10:49 Lhiker 阅读(70) 评论(0) 推荐(0) 编辑
摘要: 0.前言 相关资料: 论文 github 论文解读(CSDN) 论文基本信息: 领域:动作识别与检测 发表时间:CVPR2017(2017.5.22) 1.针对的问题 这篇论文之前的行为识别方法严重依赖于修剪过的视频数据来训练模型,然而,获取一个大规模的修剪过的视频数据集需要花费大量人力和时间。 2 阅读全文
posted @ 2022-06-15 11:55 Lhiker 阅读(75) 评论(0) 推荐(0) 编辑