【今日CS 视觉论文速览】 27 Dec 2018

今日CS.CV计算机视觉论文速览
Thu, 27 Dec 2018
Totally 70 papers

Interesting:

荧光显微镜数据集FMD,提供了包含12000张真实荧光显微镜的照片。主要用于解决显微镜中噪声特别是泊松噪声的问题。研究人员提供了原始数据和不同张图片平均得到的不同噪声水平的图像，其中基准图像利用了50张噪声图像平均得到。研究人员使用了VST based的算法和深度学习算法DnCNN,Noise2Noise算法，发现深度学习算法可以达到35dB以上的PSNR。(from 圣母大学)

Fluorescence Microscopy Denoising dataset
基于单张深度图的手势估计, 通过深度图转换的体素输入，直接回归出每个手部关节3D热力图。这一工作主要基于horuglass网络和MSRA\NYU数据集来进行。(from 香港理工)

DATASET:
MSRA: Cascaded hand pose regression 75K 17种手势 9个主体
NYC:Real-time continuous pose recovery of human hands using convolutional networks 72k训练 8k测试。
深度人脸属性综述,介绍了人脸特征估计FAE和人脸特征操作FAM两个核心问题，并处数据预处理和建模两个方面介绍了人脸特征的工作流程。同时还总结了常用的数据集、分析了前沿的算法，并介绍了一些前沿的研究问题和应用。(from 大连理工)

两种不同的基于外部条件的操作：

常见数据集dataset：
FPD-M-net基于M-Net的指纹图像去噪和修复,去除手指污染和传感器性能失效的影响。(from IIT Center for Visual Information Technology,CVIT)

指纹dataset，以及一个数据集网站
 Code
隐性指纹搜索,从物体上将隐性指纹恢复得到清晰的指纹，用于取证。主要流程包括ROI提取、隐性图像处理、特征抽取、比较、输出结果。(from 密歇根大学)
系统的工作流程如下，包括估计ROI、隐性指纹处理、特征抽取和编码、匹配。

其中利用了自编码器做指纹增强：

指纹隐空间数据集:NIST SD27 (258 latents); MSP (1,200 latents), WVU (449 latents) and N2N (10,000 latents)
add 一位做指纹研究的老师
基于生成对抗网络的增强食物识别，这一工作利用了部分标注的数据通过GAN来生成了丰富的数据，用于训练神经网络，并在食物分类上实现了很好的效果。(from 基尔大学 UK and IIT)

相关数据集
ETHZ Food-101
一大堆食物相关数据集
 data.world 小众食物数据
 50 salad
识别对抗样本，这个工作扎到了一种有效的方法来定量表示对抗样本的变化，通过特征空间的不同来识别出对抗样本。越深层的特征图、真实图和对抗样本的特征表达差异就越大，这种现象称为对抗特征可分性。基于这种方法研究人员提出了对抗特征“基因”来识别对抗样本，实现网络防御。（from 中南大学）

对抗样本可分性表现如下，随着深度增加特征图差异逐渐增大：

具体流程框图如下：

数据库和源码
GDWTC:group-wise deep whitening and coloring图像翻译风格化新方法，这一工作充分使用了基于方差和均值的特征对，利用了协方差的统计特性。通过将输入图像的内容百化处理(transforms a covariance matrix of a given input into the identity matrix)，随后加入色彩以匹配协方差统计信息。(from 高丽大学 LG)

GDWCT模块的实现细化，即上图中的淡色框内部分，包含了多个白化模块hops和多层感知机：

最后实现的效果很好玩：
风格迁移

哭变笑，笑变哭：

男变女女变男：

刘海也不怕：

数据集：
模特：CelebA
艺术：Artworks
猫狗：cat2dog
颜色：Behance Artistic Media (BAM)
春冬季节：Yosemite
相关方法：MUNIT&DRIT,WCT。
TextNet,非规则字符检测和识别网络，端到端的实现了图像中文字的定位和检测。首先基于多出度注意力机制解决了不同尺度的问题，随后在检测阶段proposal出不同方向、视角和曲率的文本区域。随后利用ROI转换层得到较小的特征图、并利用编码器获取有效特征。(from Baidu)

网络主要架构，分为了主体网络、四边形推举层、尺度注意力、层透视ROI变换层等。
多尺度机制和空间注意力机制：

一些结果：

相关dataset：ICDAR-13 ICDAR-15 Total-Text

基于耦合自编码器的去模糊,主要思想在于分别训练两个自编码器来恢复各自的图像，然后将coder进行映射，将模糊图的coder映射到清晰图的coder上，然后解码出清晰图。(from tata TCS)

耦合网络ref:Coupled deep autoencoder for single image super-resolution
CERTH dataset：No-reference blur assessment in natural images using fourier transform and spatial pyramids