【今日CS 视觉论文速览】3 Jan 2019

今日CS.CV计算机视觉论文速览
Thu, 3 Jan 2019
Totally 38 papers

在这里插入图片描述

Interesting:

将古代花鸟山水转换为照片的风格迁移,通过域迁移的方法将古画处理问题转变成了自然图像处理问题，在自然图像上训练的模型可以应用到迁移绘画中，在古画中对真实照片训练的分类模型和风格模型进行了迁移。研究人员主要收集了宋代、清代的花鸟和山水画数据集，并建立了域风格迁移网络。通过复杂的损失函数保证了迁移后的图像保持源图像的色彩和内容。（from 浙江大学）

研究人员收集的三个数据集，其中古画图片花（2258+650）鸟（2119+600）山水（2009+600）：
采用的网络结构：

最终得到的结果：

dataset：CFP,CBP,CLP; 花朵分类器：Oxford Flower;语义分割任务：PASCAL VOC
2012
ref:https://person.zju.edu.cn/0092050
EdgeConnect，一种基于边缘补全的图像修复新方法,这篇文章将图像修复的工作分成了两个部分，首先利用利用启发式的生成模型得到了缺失部分的边缘信息，随后将边缘信息作为图像缺失的先验部分和图像一起送入修复网络进行图像重建。（from 安大略技术大学）

感受一下效果：

dataset：CelebA, Places2, and Paris Street View
Code:https://github.com/knazeri/edge-connect
related inpainting:
https://github.com/satoshiiizuka/siggraph2017_inpainting
https://github.com/JiahuiYu/generative_inpainting
掩膜辅助的人群计数方法，由于人群估计的问题主要在于密度估计，而在掩膜的加入可以减小密度估计的难度，同时掩膜估计问题又可以转换为二值化的分割问题来解决。在传统方法的基础上增加了目标掩膜的分支，随后将预测出的掩膜与与输入图结合生成更好的密度图。(from 南京大学阿德莱德大学澳大利亚)

研究人员提出了五种不同的架构来实现mask的预测和融合预测密度图的方式：

人群计数数据集: shanghaitech, UCF_CC_50, WorldExpo10, The MALL
ref:http://cs-chan.com/downloads_crowd_dataset.html
https://github.com/svishwa/crowdcount-mcnn
https://irc.atr.jp/sets/TEMPOSAN_dataset/
港中文的大数据集
Action2Vec,建立了衔接语言信息和视觉空间信息的嵌入隐含空间，将动作和语言描述用类似word2vec的方式衔接起来。(from 佐治亚理工)

嵌入空间的可视化：

同时在嵌入空间中实现了代数运算，对动作和主体进行了代数操作：

dataset：UCF101 [29], HMDB51[18] and Kinetics [13].
学习三维刚体的物理动力学过程，通过输入目标点云、冲量矢量得到了物体在物理环境中受力作用后的最终位姿，这一模型的物理动力学学习结果还能用于未知物体的动力学估计。(from 斯坦福)

网络模型，输入物体点云和输出的力通过综合后得到物体的最终位姿：

dataset：ShapeNet
仿真环境：
https://pybullet.org/
https://unity3d.com/
Author：
https://github.com/davrempe
https://cs.stanford.edu/people/ssrinath/
https://geometry.stanford.edu/member/guibas/index.html
The hierarchical relation network
利用模糊数据来训练模型，保护用户隐私，利用人眼难以分辨但是机器可以使用的图像来训练算法。在分类、属性分类和人脸关键点检测方面取得了不错的结果。通过训练模糊网络来处理数据，随后利用处理的数据来训练目标网络。
（from Deeping Source）
![![在这里插入图片描述](https://img-blog.csdnimg.cn/20190104174700976. =500x)
检测数据集：SVHN, CIFAR10, Pascal VOC 2012, CelebA, and MTFL.
ref:http://www.deepingsource.io/
SiCloPe，单张图像生成人体衣着旋转效果的模型，基于模特的剪影研究人员可以通过这一模型重建人体衣着的三维模型。这意味着在虚拟试装时可以看到自己前后左右的衣着效果。这一工作利用了二维剪影和三维关节位置数据来描述复杂变化的人体穿着场景。首先通过利用输入剪影和关节数据合成了新视角下连续的剪影，随后利用生成网络得到目标的三维模型。最后利用前视图生成后视图，从而得到纹理来对三维模型的表面进行处理。(from 美国南加州大学创意技术研究所)

新视角下的剪影合成网络：

前后映射模型：

一些结果：

dataset：rigged meshes,aXYZ, Renderpeople, animation sequences Mixamo, HDRI Haven
SIXray，提出了一个大规模的安检X光数据集，包含了1059231张X光安检数据，并对其中的6类共8929个违禁品进行了手动标记。其特点是很多物体之间有遮挡关系。研究人员提出了类平衡的层级精炼方法来处理复杂物件和数据不平衡的情况，同时引入了高级视觉特征辅助中级特征。利用中特征检测得到了很好地效果，使得弱监督学习成为可能。(from 中科大)
数据集由不同层的透明图像叠加构成：

论文中提出的层级平衡精炼方法：

一些检测到违禁品的结果：

安检X光数据集SIXray，ref：GDXray
一种字符检测的方法,（from百度）

文本字符Text检测数据集：The VGG SynthText dataset, ICDAR13, MSRA-TD500.,Total-Text
文本字符识别比赛会议ref:http://u-pat.org/ICDAR2017/index.php
http://u-pat.org/ICDAR2017/program_competitions.php
http://u-pat.org/ICDAR2017/index.php
http://rrc.cvc.uab.es/
http://tc11.cvc.uab.es/datasets/icdar15smartdoc-ch2_1
https://arxiv.org/pdf/1601.07140.pdf
利用3D合成法生成人脸欺诈数据集，利用打印的彩色头像转换为三维网格，并进行随机的弯曲和选择，最后利用透视变换渲染出虚拟的样本。（from 中科大）
多输出学习的综述,（from 悉尼技术大学）
基于FPGA加速的深度学习综述，(from 法赫德国王石油矿产大学,沙特)
Lipi Gnani,一个印度卡纳达语的字符识别转换系统，（from 印度科学院）