(2020-03-29)--------paper list

1、Title: Learning Layout and Style Reconfigurable GANs for Controllable Image

可控图像学习布局与风格可重构GANs

 1 标题:可控图像学习布局与风格可重构GANs
 2 
 3 合成
 4 
 5 作者:魏孙、吴天福
 6 
 7 类别:cs.CV
 8 
 9 \\
10 
11 随着近年来学习深层生成模型的显著进展
12 
13 为可控图像开发模型变得越来越有趣
14 
15 可重构输入的综合。本文着重介绍了最近出现的
16 
17 任务,布局到图像,学习能够
18 
19 从空间布局(即对象边界)合成照片真实感图像
20 
21 在图像格中配置的框)和样式(即结构和
22 
23 由潜在向量编码的外观变化)。本文首先提出
24 
25 任务的直观范例,布局到遮罩到图像,学习展开
26 
27 输入布局中给定边界框的对象掩码,以桥接间隙
28 
29 在输入布局和合成图像之间。然后,本文提出了
30 
31 基于生成性对抗网络的方法
32 
33 在图像和遮罩级别使用样式控件遮罩到图像的布局。
34 
35 对象掩码从输入布局中学习,并沿着
36 
37 发电机网络中的级。图像级别的样式控件相同
38 
39 与vanilla GANs一样,对象掩码级别的样式控制通过
40 
41 一种新的特征规范化方案,实例敏感和
42 
43 布局感知规范化。在实验中,该方法在
44 
45 COCO-Stuff数据集和最新的视觉基因组数据集
46 
47 取得的成绩。
48 
49 \\(https://arxiv.org/abs/2003.1157120408kb)
View Code

2、Title: VIOLIN: A Large-Scale Dataset for Video-and-Language Inference

用于视频和语言推理的大规模数据集

 1 用于视频和语言推理的大规模数据集
 2 
 3 作者:刘景州,陈文虎,于成,甘哲,于立成,杨一鸣,
 4 
 5 刘晶晶女士
 6 
 7 类别:cs.CV cs.AI cs.CL
 8 
 9 意见:接受CVPR2020
10 
11 \\
12 
13 我们引入了一个新的任务,视频和语言推理,用于联合多模态
14 
15 理解视频和文本。给一个带有对齐字幕的视频剪辑
16 
17 前提,结合基于视频内容的自然语言假设,
18 
19 一个模型需要推断这个假设是由
20 
21 给定的视频剪辑。一个新的大规模数据集,名为Vivil
22 
23 (视频和语言推理)是为这个任务引入的,它包括
24 
25 来自15887个视频片段的95322个视频假设对,跨越582小时
26 
27 视频。这些视频剪辑包含丰富的内容和不同的时间
28 
29 动态、事件转移和人员交互,从两个来源收集:
30 
31 (i) 受欢迎的电视节目,以及(ii)来自YouTube频道的电影剪辑。为了
32 
33 为了解决我们新的多模态推理任务,需要一个模型
34 
35 复杂的推理技能,从表面的基础(例如,识别
36 
37 视频中的对象和字符)到深入的常识推理(例如。,
38 
39 推断视频中事件的因果关系)。我们提出一个详细的
40 
41 对数据集的分析和对许多强基线的广泛评估,
42 
43 对这项新任务的挑战提供有价值的见解。
44 
45 \\(https://arxiv.org/abs/2003.116187432kb)
View Code

3、Deep Grouping Model for Unified Perceptual Parsing

统一感知句法分析的深层分组模型

 1 题目:统一感知句法分析的深层分组模型
 2 
 3 作者:李志恒鲍文轩郑嘉阳徐晨亮
 4 
 5 类别:cs.CV
 6 
 7 意见:CVPR 2020接受
 8 
 9 期刊参考号:CVPR 2020
10 
11 \\
12 
13 基于感知的分组过程产生一个层次和
14 
15 有助于人类和机器视觉的合成图像表示
16 
17 系统识别异构的视觉概念。示例可以在
18 
19 经典的分层超像素分割或图像分析工作。然而,
20 
21 在基于CNN的现代图像中,分组过程在很大程度上被忽略了
22 
23 由于许多挑战,包括固有的
24 
25 网格状CNN特征图与
26 
27 不规则形状的知觉分组层次。克服这些挑战,我们
28 
29 提出一种深度分组模型(DGM),它紧密结合了两种类型
30 
31 表示和定义特征的自下而上和自上而下的过程
32 
33 交换。在最近的Broden+数据集上为
34 
35 统一的感知分析任务,在
36 
37 与其他基于上下文的计算开销相比
38 
39 分割模型。此外,DGM相比之下具有更好的可解释性
40 
41 用现代的CNN方法。
42 
43 \\(https://arxiv.org/abs/2003.116472112kb)
View Code

4、Title: DeepStrip: High Resolution Boundary Refinement

DeepStrip:高分辨率边界求精

 1 标题:DeepStrip:高分辨率边界求精
 2 
 3 作者:彭周、布莱恩·普莱斯、斯科特·科恩、格雷格·威尔恩斯基和拉里·S·戴维斯
 4 
 5 类别:cs.CV
 6 
 7 期刊参考号:CVPR 2020
 8 
 9 \\
10 
11 本文针对高分辨率图像中边界的细化问题进行了研究
12 
13 给出了低分辨率掩模。对于内存和计算效率,我们建议
14 
15 将感兴趣的区域转换为条形图像并计算边界
16 
17 条带域预测。为了检测目标边界,我们提出了一个
18 
19 具有两个预测层的框架。首先,所有潜在的界限
20 
21 作为初始预测进行预测,然后使用选择层来选择
22 
23 目标边界和平滑结果。为了鼓励准确的预测
24 
25 介绍了在带状区域测量边界距离的损耗。在
26 
27 此外,我们将匹配一致性和C0连续性正则化应用于
28 
29 减少误报的网络。在公众和
30 
31 新创建的高分辨率数据集有力地验证了我们的方法。
32 
33 \\(https://arxiv.org/abs/2003.116705161kb)
View Code

5、Title: Mask Encoding for Single Shot Instance Segmentation

但阶段实例分割

 1 作者:张如峰、田志田、沈春华、游明宇、阎友良
 2 
 3 类别:cs.CV
 4 
 5 备注:接受处理。计算机视觉与模式识别
 6 
 7 (CVPR),2020年
 8 
 9 \\
10 
11 迄今为止,实例分割主要由两个阶段的方法控制,这是最早的
12 
13 面具R-CNN。相比之下,单阶段替代品无法与掩模竞争
14 
15 R-CNN在掩模AP中,主要是由于难以紧凑地表示掩模,
16 
17 使得单阶段设计方法极具挑战性。在这项工作中,我们
18 
19 提出了一个简单的单镜头实例分割框架mask
20 
21 基于编码的实例分割(MEInst)。而不是预测
22 
23 直接二维掩模,MEInst将其蒸馏成
24 
25 固定维表示向量,允许实例分割
26 
27 将任务合并到一级边界盒检测器中,并导致
28 
29 简单而有效的实例分割框架。提议的一个阶段
30 
31 MEInst在单型号掩模AP(ResNeXt-101-FPN主干网)中达到36.4%
32 
33 在MS-COCO基准上进行单尺度测试。我们证明了
34 
35 简单灵活的一阶段实例分割方法,也可以实现
36 
37 竞争表现。这个框架可以很容易地适应其他
38 
39 实例级识别任务。代码位于:
40 
41 https://git.io/AdelaiDet网站
42 
43 \\(https://arxiv.org/abs/2003.1171427kb)
View Code

6、Title: Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in image captioning models

             Egoshots,一个EgoVision生活日志数据集和语义保真度

 1 标题:Egoshots,一个EgoVision生活日志数据集和语义保真度
 2 
 3 图像字幕模型中多样性的度量
 4 
 5 作者:Pranav Agarwal、Alejandro Betancourt、Vana Panagiotou和Natalia
 6 
 7 D'iaz-Rodr'iguez公司
 8 
 9 类别:cs.CV cs.LG
10 
11 评论:15页,25位数
12 
13 \\
14 
15 图像字幕模型能够生成语法正确的
16 
17 人类可以理解的句子。然而,大多数的标题表达的是有限的
18 
19 所用模型的信息是在不包含所有标题的数据集上训练的
20 
21 日常生活中可能存在的事物。由于缺乏先验知识
22 
23 信息大多数标题只偏向于
24 
25 场景,因此限制了它们在日常生活中的使用。在本文中,我们尝试
26 
27 显示当前现有图像字幕模型的偏向性,以及
28 
29 呈现一个新的图像字幕数据集,Egoshots,由978个真实生活
30 
31 没有标题的图片。我们进一步开发最先进的预先培训
32 
33 图像字幕和对象识别网络来标注我们的图像和
34 
35 展示现有作品的局限性。此外,为了评估
36 
37 生成的标题质量,我们提出了一种新的图像标题度量,
38 
39 基于对象的语义逼真度(SF)。现有的图像字幕度量可以
40 
41 仅在标题的相应注释存在时才对标题进行评估;
42 
43 但是,SF允许评估为图像生成的标题,而不需要
44 
45 注释,使得它对于真实生活中生成的标题非常有用。
46 
47 \\(https://arxiv.org/abs/2003.117437524kb)
View Code

7、Title: Real-time 3D Deep Multi-Camera Tracking

        实时三维深度多摄像机跟踪

 1 标题:实时三维深度多摄像机跟踪
 2 
 3 作者:全曾佑、郝江
 4 
 5 类别:cs.CV
 6 
 7 评论:17页,8位数
 8 
 9 \\
10 
11 使用多个RGB相机在3D中跟踪人群是一项具有挑战性的任务。大多数
12 
13 以前的多摄像机跟踪算法是为离线设置和
14 
15 计算复杂度高。强大的实时多摄像机三维跟踪
16 
17 仍然是一个未解决的问题。在这项工作中,我们提出了一个新的端到端
18 
19 跟踪管道,深度多摄像机跟踪(DMCT),实现可靠
20 
21 实时多摄像机跟踪人。我们的DMCT包括
22 
23 一种新的透视感知的深地面网络,2)一种用于
24 
25 地平面占有率热图估计(3)一种新的深度观测网络
26 
27 一个快速准确的在线跟踪器。我们的设计完全
28 
29 释放深层神经网络的力量来估计
30 
31 每个彩色图像中的每个人,可以优化以高效地运行和
32 
33 很强壮。我们的融合程序,瞥见网络和跟踪器合并结果
34 
35 从不同的角度,找到使用多个视频帧和
36 
37 然后在融合热图上追踪人们。我们的系统实现了
38 
39 最先进的跟踪结果,同时保持实时性能。
40 
41 除了对具有挑战性的WILDTRACK数据集进行评估外,我们还收集了两个
42 
43 来自两个不同环境的具有高质量标签的更多跟踪数据集
44 
45 和摄像机设置。我们的实验结果证实了我们提出的
46 
47 实时流水线提供优越的
View Code

 8、Title: Hit-Detector: Hierarchical Trinity Architecture Search for Object

 

posted on 2020-03-29 01:02  feihu_h  阅读(340)  评论(0编辑  收藏  举报

导航