【今日CV 计算机视觉论文速览 第112期】Mon, 6 May 2019
今日CS.CV 计算机视觉论文速览
Mon, 6 May 2019
Totally 31 papers
👉上期速览✈更多精彩请移步主页
Interesting:
📚HDR图像超分辨联合算法, 通过重建高频细节信息、来共同进行图像超分辨和高动态范围重建。高频部分只在反射部分(基于retinex的图像解构)进行操作,其他部件(亮度)进行卷积操作。(from 首尔国立大学)
反射部分的网络结构:
一些效果:
dataset:MESet8.
📚SCOPS自监督协同分割, 一种基于自监督的方法对物体的各个部分进行分割。(from UC 默塞德 NVIDIA)
模型基于单张图像输入,并利用了几何、同变性(Equivariance)、语义连续性来进行约束:
同变性(原始变换和特征变换顺序不同得到的差异)损失和语义连续性损失:
code:https://varunjampani.github.io/scops/
cosegmetation ref: https://blog.csdn.net/m0_37733057/article/details/78322881
📚深度残差强化学习, 基于残差算法重新设计了基于模型和无模型的强化学习算法,提出了双边目标网络技术来稳定残差算法,得到了残差DDPG效果超过了原始的DDPG。同时研究人员发现基于残差的方法对于基于模型规划的分布不匹配问题很有用。(from 牛津)
相比于DDPG的提升和基于模型的残差RL算法流程:
📚多模态数据对抗网络用于食物和菜谱生成, (from 新加坡管理大学)
对抗交叉模型嵌入:
📚无缝场景分割, 实现连续的场景分割及目标检测,提出了新的分割头结构充分利用了多层次信息。(from Mapillary Research)
头模型和miniDeepLab 模块:
不同数据集下的结果:
ref:街景数据公司Mapillary
📚2d预测3d位姿, 基于弱监督的方法从2d图像中的位姿得到3D位置,利用关节的重投影损失来训练。(from TCS Research and Innovation,Tata)
模型架构:
数据集:Human3.6m,MPII,MPI-INF-3DHP
📚PRECOG,针对未来自动驾驶的多主体概率预测模型,包含标准预测和条件预测。并提出了仿真数据集。 (from CMU)
预测场景和车辆行为预测情况:
预测及规划的模型:
dataset:CARLA dataset,nuScenes dataset,Didactic Benchmark
Daily Computer Vision Papers
SCOPS: Self-Supervised Co-Part Segmentation Authors Wei Chih Hung, Varun Jampani, Sifei Liu, Pavlo Molchanov, Ming Hsuan Yang, Jan Kautz 零件提供了良好的物体中间表示,相对于相机,姿势和外观变化而言是稳健的。部分细分的现有工作由受监督的方法主导,这些方法依赖于大量的手动注释,并且不能推广到看不见的对象类别。我们提出了一种用于零件分割的自我监督深度学习方法,其中我们设计了几种损失函数,这些函数有助于预测几何集中的零件段,对对象变化具有鲁棒性,并且在不同对象实例中也在语义上是一致的。对不同类型的图像集合进行的大量实验表明,与现有的自我监督技术相比,我们的方法可以生成符合对象边界的部分片段,并且在对象实例中也更具语义一致性。 |
PRECOG: PREdiction Conditioned On Goals in Visual Multi-Agent Settings Authors Nicholas Rhinehart, Rowan McAllister, Kris Kitani, Sergey Levine 对于自动驾驶车辆AV在人类驾驶车辆的道路上表现得恰当,他们必须能够从丰富的感知信息中推断出其他驾驶员的不确定意图和决策。为了实现这些能力,我们提出了多个代理商未来交互的概率预测模型。我们针对AV的目标执行标准预测和条件预测。关于所有代理可能如何响应受控代理的特定决策的条件预测原因。我们在真实和模拟数据上训练我们的模型,以预测过去位置和激光雷达的车辆轨迹。我们的评估表明,与现有技术相比,我们的模型在多智能体驾驶场景中更加准确。除了执行条件预测查询的一般能力之外,我们还表明,我们的模型对所有代理的预测在以AV的意图知识为条件时得到改善,进一步说明了其对代理交互建模的能力。 |
Leveraging Large-Scale Uncurated Data for Unsupervised Pre-training of Visual Features Authors Mathilde Caron, Piotr Bojanowski, Julien Mairal, Armand Joulin 使用卷积神经网络预训练通用视觉特征而不依赖于注释是一项具有挑战性和重要的任务。最近在无监督特征学习方面的努力集中在像ImageNet这样的小型或高度精选的数据集上,而在传输任务中评估时,使用未经过计算的原始数据集会降低特征质量。我们的目标是弥合在策划数据上训练的无监督方法与获取成本高昂的大量原始数据集之间的性能差距。为此,我们提出了一种新的无监督方法,该方法利用自我监督和聚类来捕获大规模数据的补充统计数据。我们对来自YFCC100M的9600万张图像验证了我们的方法,在标准基准上的无监督方法中实现了最先进的结果,这证实了当只有未经验证的数据可用时无监督学习的潜力。我们还表明,使用我们的方法对受监督的VGG 16进行预训练,在ImageNet分类的验证集上达到了74.6的前1准确度,这比从头开始训练的同一网络提高了0.7。 |
Learning Cross-Modal Embeddings with Adversarial Networks for Cooking Recipes and Food Images Authors Hao Wang, Doyen Sahoo, Chenghao Liu, Ee peng Lim, Steven C. H. Hoi 食品计算在人类日常生活中发挥着越来越重要的作用,并且已经在指导人们对智能食品消费和健康生活方式的行为方面发现了巨大的应用。食品计算伞下的一项重要任务是检索,这对于健康相关的应用特别有用,我们有兴趣检索有关食品的重要信息,例如成分,营养等。在本文中,我们研究了烹饪食谱和食物图像之间的交叉模态检索的开放性研究任务,并提出了一种新的框架,用于解决食物领域中的交叉模态检索任务的对抗交叉模态嵌入ACME。具体来说,目标是学习两种方式之间的共同嵌入特征空间,其中我们的方法包括几个新的想法,我通过使用新的三重态丢失方案和有效的采样策略学习,ii使用对抗性学习强加模态对齐策略,和iii强加交叉模态翻译的一致性,使得一种模态的嵌入能够恢复另一种模态中相应实例的一些重要信息。 ACME在基准Recipe1M数据集上实现了最先进的性能,验证了所提出技术的有效性。 |
DRIT++: Diverse Image-to-Image Translation via Disentangled Representations Authors Hsin Ying Lee, Hung Yu Tseng, Qi Mao, Jia Bin Huang, Yu Ding Lu, Maneesh Singh, Ming Hsuan Yang 图像到图像的翻译旨在学习两个视觉域之间的映射。该任务存在两个主要挑战:1缺少对齐的训练对和来自单个输入图像的2个多个可能的输出。在这项工作中,我们提出了一种基于解缠表示的方法,用于在没有成对训练图像的情况下生成不同的输出。为了合成不同的输出,我们建议将图像嵌入到两个空间中,域不变内容空间跨域捕获共享信息和域特定属性空间。我们的模型采用从给定输入中提取的编码内容特征和从属性空间采样的属性向量,以在测试时合成不同的输出。为了处理不成对的训练数据,我们引入了基于解开的表示的交叉循环一致性损失。定性结果表明,我们的模型可以在无需配对训练数据的情况下,在各种任务上生成多样且逼真的图像。对于定量评估,我们用用户研究和Fr chet起始距离来衡量现实性,并用感知距离度量,Jensen Shannon散度和统计上不同的箱数来测量多样性。 |
Scaling and Benchmarking Self-Supervised Visual Representation Learning Authors Priya Goyal, Dhruv Mahajan, Abhinav Gupta, Ishan Misra 自我监督学习的目的是在没有明确的人工监督的情况下从数据本身学习表示。现有的努力忽略了自我监督学习扩展到大量数据的能力的关键方面,因为自我监督不需要手动标签。在这项工作中,我们重新审视了这一原则,并将两种流行的自我监督方法扩展到1亿张图像。我们表明,通过在各个轴上进行缩放,包括数据大小和问题硬度,可以在很大程度上匹配甚至超过监督预训练在各种任务上的表现,例如物体检测,表面法线估计3D和使用强化学习的视觉导航。扩展这些方法还为当前自我监督技术和评估的局限性提供了许多有趣的见解。我们得出结论,当前的自我监督方法并不足以充分利用大规模数据,并且似乎没有学习有效的高级语义表示。我们还介绍了9个不同数据集和任务的广泛基准。我们认为,这种基准以及可比较的评估设置对于取得有意义的进展是必要的。 |
Seamless Scene Segmentation Authors Lorenzo Porzi, Samuel Rota Bul , Aleksander Colovic, Peter Kontschieder 在这项工作中,我们介绍了一种新颖的,基于CNN的架构,可以端到端地进行训练,以提供无缝的场景分割结果。我们的目标是通过全景输出格式预测一致的语义分割和检测结果,超越独立训练的分割和检测模型的简单组合。所提出的架构利用了一种新颖的分割头,该分割头将特征金字塔网络生成的多尺度特征与轻量级DeepLab类模块传达的上下文信息无缝集成。作为额外的贡献,我们审查了全景度量,并提出了一种在评估非实例类别时克服其局限性的替代方案。我们提出的网络架构在三个具有挑战性的街道级数据集上产生了最先进的结果,即Cityscapes,Indian Driving Dataset和Mapillary Vistas。 |
Offline Writer Identification based on the Path Signature Feature Authors Songxuan Lai, Lianwen Jin 在本文中,我们提出了一种基于路径签名方法的离线书写器识别的一组新功能,它提供了一种表达路径中包含的信息的原则方式。通过从手写轮廓中提取局部小径,路径签名还可以表征离线手写样式。基于日志路径签名的码本方法是表达路径签名的更紧凑的方式,在本工作中使用,并在几个基准离线作家识别数据集上显示竞争结果,即IAM,Firemaker,CVL和ICDAR2013作家识别竞赛数据集。 |
Query-guided End-to-End Person Search Authors Bharti Munjal, Sikandar Amin, Federico Tombari, Fabio Galasso 人物搜索最近作为一种新的任务受到关注,作为一种裁剪样本,从非裁剪图像的图库中找到一个人,其中几个其他人也是可见的。我们相信我。应在联合优化框架中进行人员检测和重新识别,并且ii。人物搜索应广泛利用查询图像,例如强调独特的查询模式。然而,到目前为止,没有现有技术认识到这一点。我们介绍了一种新颖的查询引导端到端人员搜索网络QEEPS来解决这两个方面。我们利用最新的联合探测器和重新识别工作OIM 37。我们用i扩展这个。查询引导Siamese挤压和激励网络QSSE Net,它使用来自查询和图库图像的全局上下文,ii。查询引导区域提议网络QRPN以产生查询相关提议,以及iii。查询引导相似子网QSimNet,学习查询引导的重新识别分数。 QEEPS是第一个端到端查询引导检测和重新识别网络。在最新的CUHK SYSU 37和PRW 46数据集中,我们大幅超越了之前的技术水平。 |
Computational analysis of laminar structure of the human cortex based on local neuron features Authors Andrija tajduhar, Tomislav Lipi , Goran Sedmak, Sven Lon ari , Milo Juda 在本文中,我们提出了一种基于组织特征分析和分割皮层层结构的新方法,其中灰质的变化促进了皮质层之间的区分。我们开发和分析单个神经元的特征,以研究建筑学差异的变化,并提出一种新的高性能,自动化树集合方法,该方法由三名人类研究人员手动标记的数据进行训练。从神经元的位置和基本测量,开发出更复杂的特征,并将其用于机器学习模型中,用于皮质层的自动分割。树集合用于由三位人类专家手动标记的数据。通过分别训练三个模型并通过组合最终神经元层分类的概率输出来创建另一个集合,获得最准确的分类结果。获得了在全局模型水平和个体预测水平上的发达神经元特征的重要性的测量。 |
Distance Metric Learned Collaborative Representation Classifier Authors Tapabrata Chakraborti, Brendan McCane, Steven Mills, Umapada Pal 任何通用深度机器学习算法本质上都是函数拟合练习,其中网络调整其权重和参数以通过最小化某些成本函数来学习辨别特征。虽然网络试图学习最佳特征空间,但它很少尝试在成本函数中学习最佳距离度量,因此错过了额外的抽象层。我们提出了一种简单有效的方法来实现这一目标,通过以任何标准卷积网络作为特征学习者,以端到端方式学习协作损失函数中的通用Mahalanabis距离。所提出的方法DML CRC使用VGG 19深度网络在基准细粒度分类数据集CUB Birds,Oxford Flowers和Oxford IIIT Pets上给出了最先进的性能。该方法是网络不可知的,可用于任何类似的分类任务。 |
SinGAN: Learning a Generative Model from a Single Natural Image Authors Tamar Rott Shaham, Tali Dekel, Tomer Michaeli 我们介绍SinGAN,一种无条件的生成模型,可以从单一的自然图像中学习。我们的模型经过训练,可捕获图像中斑块的内部分布,然后能够生成高质量,多样化的样本,这些样本具有与图像相同的视觉内容。 SinGAN包含一个完全卷积GAN的金字塔,每个GAN负责学习不同尺度图像的补丁分布。这允许生成具有显着可变性的任意大小和纵横比的新样本,同时保持训练图像的全局结构和精细纹理。与先前的单图像GAN方案相比,我们的方法不限于纹理图像,并且不是条件的,即它从噪声生成样本。用户研究证实,生成的样本通常被混淆为真实图像。我们说明了SinGAN在各种图像处理任务中的实用性。 |
Group Emotion Recognition Using Machine Learning Authors Samanyou Garg 自动面部情绪识别是一项具有挑战性的任务,在过去几年中已经获得了显着的科学兴趣,但是对一群人的情绪识别问题的研究较少。然而,由于社交网站上可获得的大量数据包含参与各种社交活动的人群图像,因此它正在逐渐普及。由于头部和身体姿势变化,遮挡,可变照明条件,演员的变化,各种室内和室外设置以及图像质量等障碍,群体情感识别是一个具有挑战性的问题。这项任务的目的是将一组感知的情绪分类为正面,中立或负面。在本报告中,我们描述了我们的解决方案,它是一个混合机器学习系统,结合了深度神经网络和贝叶斯分类器。深度卷积神经网络CNN从下到上工作,分析从图像中提取的各个面部表达的面部表情。贝叶斯网络从上到下工作,通过整合通过场景描述符获得的图像内容的视觉特征来推断图像的全局情感。在最终流水线中,由自下而上模块中的CNN集合预测的群组情感类别作为输入被传递到自上而下模块中的贝叶斯网络,并且获得对图像的整体预测。实验结果表明,所述系统在验证集上达到65.27的准确度,这与现有技术的结果一致。作为该项目的成果,提出了一个渐进式Web应用程序和一个带有简单直观用户界面的随附Android应用程序,允许用户使用自己的图片测试系统。 |
Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning Authors Spyros Gidaris, Nikos Komodakis 鉴于已经在一组基类上训练的初始识别模型,这项工作的目标是为少数镜头学习开发元模型。元模型作为输入给出了一些新类,每个类只有很少的训练样例,必须将现有的识别模型适当地调整为一个新模型,该模型能够以统一的方式对新颖类和基类进行正确分类。为了实现这一目标,必须学会为这两类类型输出适当的分类权重向量。为了构建我们的元模型,我们利用两个主要创新,我们提出使用去噪自动编码器网络DAE,在训练期间,一组分类权重被高斯噪声破坏并学习重建目标判别分类权重。在这种情况下,分类权重上的注入噪声起到使权重生成元模型正则化的作用。此外,为了捕获元模型的给定任务实例中的不同类之间的共同依赖性,我们建议将DAE模型实现为图神经网络GNN。为了验证我们的方法的有效性,我们在ImageNet上基于几个镜头基准对其进行了广泛的评估,并且我们报告了超越先前方法的强大结果。我们论文的代码和模型将发布在 |
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Authors Jingwen Chen, Yingwei Pan, Yehao Li, Ting Yao, Hongyang Chao, Tao Mei 人们相信视频字幕是计算机视觉和人工智能领域的一项基本但具有挑战性的任务。普遍的方法是通过递归神经网络RNN以序列方式将输入视频映射到可变长度输出语句。然而,RNN的训练在某种程度上仍然受到消失的爆炸梯度问题的影响,使得优化变得困难。此外,RNN中固有的循环依赖性阻止了训练期间序列内的并行化,因此限制了计算。在本文中,我们提出了一种新颖的设计时间可变形卷积编码器解码器网络,称为TDConvED,在编码器和解码器网络中完全采用卷积用于视频字幕。从技术上讲,我们利用卷积块结构来计算固定数量输入的中间状态,并堆叠几个块以捕获长期关系。编码器中的结构还配备有时间可变形卷积,以实现时间采样的自由形变。我们的模型还利用句子生成的时间注意机制。对MSVD和MSR VTT视频字幕数据集进行了大量实验,与传统的基于RNN的编码器解码器技术相比,报告了更好的结果。更值得注意的是,TDConvED在MSVD上将CIDEr D性能从58.8增加到67.2。 |
Known-class Aware Self-ensemble for Open Set Domain Adaptation Authors Qing Lian, Wen Li, Lin Chen, Lixin Duan 现有的域自适应方法通常假设不同的域具有相同的标签空间,这对于现实世界的应用是非常有限的。在本文中,我们关注开放集域适应的更现实和具有挑战性的案例。特别是,在开放集域适应中,我们允许来自源域和目标域的类部分重叠。在这种情况下,由于两个域中的标签空间不同,传统分布对齐的假设不再成立。为了应对这一挑战,我们提出了一种新方法,它被称为已知类Aware Self Ensemble KASE,它建立在最近开发的自我集合模型之上。在KASE中,我们首先引入一个已知的类感知识别KAR模块来识别目标域中的已知和未知类,这是通过鼓励已知类的低交叉熵和基于来自未知类的源数据的高熵来实现的。 。然后,我们开发了一个已知类Aware Adaptation KAA模块,通过根据KAR预测的属于已知类别的未标记目标样本的可能性重新加权适应性损失,从源域更好地适应目标。对多个基准数据集的大量实验证明了我们方法的有效性。 |
Semantic Segmentation of Video Sequences with Convolutional LSTMs Authors Andreas Pfeuffer, Karina Schulz, Klaus Dietmayer 大多数语义分割方法已经被开发用于单个图像分割,因此,当前通过分别处理视频序列的每个帧来分割视频序列。这样做的缺点是不考虑时间图像信息,这改善了分割方法的性能。包含时间信息的一种可能性是使用递归神经网络。然而,到目前为止,只有少数方法使用循环网络进行视频分割。这些方法扩展了众所周知的分段方法的编码器解码器网络架构,并在编码器和解码器之间放置卷积LSTM层。然而,在本文中,显示该位置不是最佳的,并且网络中的其他位置表现出更好的性能。如今,现有技术的分割方法很少使用经典的编码器解码器结构,而是使用多分支架构。这些架构更复杂,因此将再循环单元放置在适当的位置更加困难。在这项工作中,多分支架构通过卷积LSTM层在不同位置进行扩展,并在两个不同的数据集上进行评估,以便找到最佳的数据集。事实证明,所提议的方法优于基于纯CNN的方法,最高可达1.6%。 |
Lifting 2d Human Pose to 3d : A Weakly Supervised Approach Authors Sandika Biswas, Sanjana Sinha, Kavya Gupta, Brojeshwar Bhowmick 由于人体姿势的多样性和复杂性以及从单一视图恢复深度的固有模糊性,从单眼图像估计3d人体姿势是一个具有挑战性的问题。最近的基于深度学习的方法通过在3d姿势注释数据集上使用监督学习显示出有希望的结果。然而,缺乏在野外环境下捕获的大规模3D注释训练数据使得在野外姿势中难以进行3d姿势估计。很少有方法以弱监督的方式利用来自3d和2d姿势数据集的训练图像来学习无约束设置中的3D姿势。在本文中,我们提出了一种方法,该方法能够使用以弱监督方式训练的深度神经网络在地面实况3d姿势和地面实况2d姿势的组合上有效地预测来自2d姿势的3d人体姿势。我们的方法使用重投影误差最小化作为约束来预测身体关节的三维位置,这对于训练不存在三维基础事实的数据至关重要。由于单独最小化再投影误差可能无法保证精确的3D姿势,我们还在骨架姿势上使用额外的几何约束来规范3d中的姿势。我们通过交叉数据集验证在包含野生3d姿势的具有挑战性的3D基准数据集MPI INF 3DHP中展示了我们方法的卓越泛化能力。 |
PFA-ScanNet: Pyramidal Feature Aggregation with Synergistic Learning for Breast Cancer Metastasis Analysis Authors Zixu Zhao, Huangjing Lin, Hao Chen, Pheng Ann Heng 从整个载玻片图像自动检测癌症转移WSI是跟踪患者分期和预后的关键步骤。然而,最近基于卷积神经网络CNN的方法由于难以处理大规模千兆像素图像而在精度和计算成本之间进行折衷。为了应对这一挑战,我们提出了一种新颖的深度神经网络,即金字塔特征聚合ScanNet PFA ScanNet,在自上而下和自下而上的路径中都有金字塔特征聚合。通过利用具有较大感受野和较少参数的多尺度特征的上下文和空间信息的优点,增强了我们探测器的辨别能力。我们还开发了一个额外的解码器分支,以协同学习语义信息和检测器,显着提高识别转移的性能。此外,高效的推理机制设计有密集的池化层,允许密集和快速扫描千兆像素WSI分析。我们的方法在Camelyon16数据集上获得了89.1的最新FROC评分,以及Camelyon17排行榜上的竞争性kappa评分为0.905。此外,我们提出的方法显示出超过现有技术方法的领先速度优势,这使得乳腺癌转移的自动分析更适用于临床使用。 |
Real-time and robust multiple-view gender classification using gait features in video surveillance Authors Trung Dung Do, Hakil Kim, Van Huan Nguyen 在实际应用中观察人们在任意方向行走,拿着物品或穿着厚重的外套是很常见的。这些因素是基于步态的应用方法中的挑战,因为它们显着改变了人的外观。本文提出了一种利用步态信息实时对人类性别进行分类的新方法。使用平均步态图像AGI而不是步态能量图像GEI允许该方法在计算上有效且对视图变化具有鲁棒性。创建视点VP模型以在测试阶段自动确定视角。构造距离信号DS模型以移除具有附件承载物品的任何区域,来自轮廓的磨损外套以减少所得分类中的干扰。最后,使用支持向量机训练的多个视图相关分类器对人类性别进行分类。实验结果证实,该方法在CASIA数据集B上实现了98.8的高精度,并且优于最新的现有技术方法。 |
Blind Deconvolution Method using Omnidirectional Gabor Filter-based Edge Information Authors Trung Dung Do, Xuenan Cui, Thi Hai Binh Nguyen, Hakil Kim, Van Huan Nguyen 在先前的盲去卷积方法中,可以通过使用边缘或像素信息来获得去模糊图像。然而,现有的基于边缘的方法没有利用ommi方向上的边缘信息,而是仅在恢复de blur图像时使用水平和垂直边缘。此限制降低了恢复图像的质量。本文提出了一种利用不同方向的边缘来恢复真实清晰图像的方法。我们还提供统计表分数,以显示有多少方向足以恢复高质量的真实清晰图像。为了对去模糊图像的质量进行评级,我们引入了一种测量,即利用Haar小波变换的Haar散焦得分。实验结果证明,该方法在Haar散焦得分和峰值信噪比方面均获得了高质量的去模糊图像。 |
Anti-Confusing: Region-Aware Network for Human Pose Estimation Authors Xuan Cao, Yanhao Ge, Ying Tai, Wei Zhang, Jian Li, Chengjie Wang, Jilin Li, Feiyue Huang 在这项工作中,我们提出了一个名为Region Aware Network RANet的新型框架,用于实现人体姿势估计的反混淆,包括重度遮挡,附近人和对称外观。具体地,我们提出的方法解决了人体姿势估计的三个关键方面,即数据增强,特征学习和预测融合。首先,我们提出基于解析的数据增强PDA,以生成具有混乱纹理的丰富数据。其次,我们不仅提出了特征金字塔干FPS模块,以便在较低阶段学习更好的低级特征,而且还结合有效区域提取ERE模块来研究更好的人体特定特征。第三,我们引入Cascade Voting Fusion CVS以明确利用可见性来排除偏转的预测并实现最终的精确姿态估计。实验结果证明了我们的方法对现有技术的优越性,并对两个流行的基准数据集(包括MPII和LSP)进行了重大改进。 |
Remote measurement of sea ice dynamics with regularized optimal transport Authors M. D. Parno, B. A. West, A. J. Song, T. S. Hodgdon, D. T. O Connor 随着北极条件的迅速变化,北极地区的人类活动将继续增加,因此需要对海冰进行高分辨率观测。虽然卫星图像可以提供高空间分辨率,但它在时间上是稀疏的,并且在观察之间可能发生显着的冰变形。这使得难以应用要求图像之间存在持久特征的特征跟踪或图像相关技术。考虑到这一点,我们提出了一种基于最优传输的技术,该技术通常用于测量概率分布之间的差异。当小冰进入或离开图像场景时,我们表明正则化的最优传输可用于定量估计冰变形。我们讨论了我们的方法的动机并描述了有效的计算实现。结果是在合成和MODIS图像的组合上提供的,以证明我们的方法在原始图像分辨率下估计动力学特性的能力。 |
Improving Visual Relation Detection using Depth Maps Authors Sahand Sharifzadeh, Max Berrendorf, Volker Tresp 现有技术的视觉关系检测方法一直依赖于从包括对象2D位置的RGB图像提取的特征。在本文中,我们认为空间中物体的3D位置可以提供关于物体关系的额外有价值的信息。这些信息不仅有助于检测空间关系,例如站在后面,还有非空间关系,例如持有。由于不容易访问场景的3D信息,我们建议在视觉关系检测框架内结合预训练的RGB到深度模型。我们从深度图讨论不同的特征提取策略,并展示它们在关系检测中的关键作用。我们的实验证实,通过利用深度图信息可以显着改善现有技术的视觉关系检测方法的性能。 |
Visualizing Deep Networks by Optimizing with Integrated Gradients Authors Zhongang Qi, Saeed Khorram, Li Fuxin 理解和解释深度学习模型所做出的决策在许多领域都很有价值。在计算机视觉中,来自深度网络的计算热图是用于可视化和理解深度网络的流行方法。然而,与网络无关的热图可能误导人类,因此热图的表现对于深层网络提供忠实的解释至关重要。在本文中,我们提出了I GOS,它优化了热图,使得屏蔽图像上的分类分数最大程度地降低。该方法的主要新颖性是基于积分梯度而不是正常梯度来计算下降方向,这避免了局部最优并加速了收敛。与以前的方法相比,我们的方法可以灵活地计算任何分辨率的热图,以满足不同的用户需求。对几个基准数据集的大量实验表明,与其他最先进的方法相比,我们的方法产生的热图与底层深层网络的决策更相关。 |
Omni-Scale Feature Learning for Person Re-Identification Authors Kaiyang Zhou, Yongxin Yang, Andrea Cavallaro, Tao Xiang 作为实例级别识别问题,人员识别ReID依赖于判别特征,其不仅捕获不同的空间尺度而且还封装多个尺度的任意组合。我们将同构和异构尺度的这些特征称为全尺度特征。在本文中,设计了一种新的深度CNN,称为Omni Scale Network OSNet,用于ReID中的全尺寸特征学习。这是通过设计由多个卷积特征流组成的残差块来实现的,每个卷积特征流检测特定尺度的特征。重要的是,引入了一种新颖的统一聚合门,以动态融合具有输入相关信道方向权重的多尺度特征。为了有效地学习空间信道相关性并避免过度拟合,构建块使用逐点和深度卷积。通过逐层堆叠这些块,我们的OSNet非常轻巧,可以在现有的ReID基准测试中从头开始进行培训。尽管模型尺寸较小,但我们的OSNet在六人ReID数据集上实现了最先进的性能。 |
Enhanced free space detection in multiple lanes based on single CNN with scene identification Authors Fabio Pizzati, Fernando Garc a 许多用于自动车辆导航的系统依赖于车道检测。传统的算法通常只估计道路上的车道位置,但是自主控制系统也可能需要知道车道标记是否可以交叉,车道内的哪个部分空间没有障碍物,以使更安全控制决定。另一方面,自由空间检测算法仅检测可导航区域,而没有关于车道的信息。现有技术的算法使用CNN用于两个任务,显着消耗计算资源。我们提出了一种新方法,通过单个CNN估计每个车道内的自由空间。此外,仅添加一个关于GPU RAM的小要求,我们推断道路类型,这对路径规划很有用。为了实现这一结果,我们培训了一项多任务CNN。然后,我们进一步详细说明网络的输出,以提取可以有效用于导航控制的多边形。最后,我们提供了一种基于ROS的计算有效的实现,可以实时执行。我们的代码和训练有素的模型可在线获取 |
Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask Authors Hattie Zhou, Janice Lan, Rosanne Liu, Jason Yosinski Frankle Carbin最近的彩票票假设论文表明,创建稀疏网络的简单方法可以使大权重产生从头开始训练的模型,但仅限于从相同的初始权重开始。这些网络的性能通常超过非稀疏基本模型的性能,但原因尚不清楚。在本文中,我们研究了Lottery Ticket LT算法的三个关键组成部分,表明每个都可以在不影响整体结果的情况下显着变化。消除这些因素可以为LT网络的表现提供新的见解。我们展示了为什么将权重设置为零很重要,为重新初始化的网络列车所需的符号,以及为什么屏蔽行为就像训练一样。最后,我们发现可以应用于未经训练的随机初始化网络的超级掩模或掩模的存在,以产生性能远远优于MNIST上的机会86的模型,在CIFAR 10上为41。 |
Learned Quality Enhancement via Multi-Frame Priors for HEVC Compliant Low-Delay Applications Authors Ming Lu, Ming Cheng, Yiling Xu, Shiliang Pu, Qiu Shen, Zhan Ma 网络视频应用(例如视频会议)由于意外的网络波动和有限的带宽而经常遭受差的视觉质量。在本文中,我们开发了一个质量增强网络QENet,以减少视频压缩伪像,利用空间和时间预测的各种多尺度卷积产生的空间和时间先验,以时间的方式反复进行。我们已将此QENet作为标准单独后处理子系统集成到高效视频编码HEVC兼容解码器。实验结果表明,我们的QENet在HEVC和其他基于深度学习的方法中展示了环路滤波器中默认的最新性能,其中峰值信噪比PSNR和视觉上的主观增益具有明显的客观增益。 |
A Splitting-Based Iterative Algorithm for GPU-Accelerated Statistical Dual-Energy X-Ray CT Reconstruction Authors Fangda Li, Ankit Manerikar, Tanmay Prakash, Avinash Kak 在处理机场行李中的材料分类时,双能量计算机断层扫描DECT允许使用基于两种衰减效应康普顿散射和光电吸收的系数来表征任何给定材料。然而,由于在实际行李箱扫描中遇到的高动态范围的材料特性,用于该表征的直接投影域分解方法通常产生差的重建。因此,为了在时序约束下获得更好的重建质量,我们提出了基于分裂的GPU加速统计DECT重建算法。与现有技术相比,我们的主要贡献在于通过在ADMM框架内分离重建和分解而实现的显着加速。在合成和现实世界的行李模型上的实验结果表明收敛所需的时间显着减少。 |
Joint High Dynamic Range Imaging and Super-Resolution from a Single Image Authors Jae Woong Soh, Jae Sung Park, Nam Ik Cho 本文提出了一种新的框架,用于联合增强图像的分辨率和动态范围,即基于卷积神经网络CNN的同时超分辨率SR和高动态范围成像HDRI。从这两项任务的共同趋势来看,我们通过重点关注高频细节的重建,为联合HDRI和SR培训CNN。具体地,我们工作中的高频分量是根据基于Retinex的图像分解的反射分量,并且仅CNN操纵反射分量,而以常规方式处理另一分量照射。在训练CNN时,我们设计了适当的损失函数,有助于产生图像的自然质量。实验表明,我们的算法优于基于CNN的SR和HDRI的级联实现。 |
Chinese Abs From Machine Translation |