论文库

Note：

2020年停更。博主在用Zotero记录论文，直接在pdf上做笔记。博客效率不高啦。
评分为博主的个人评价，而非客观衡量论文质量和贡献程度。评分主要考虑的是这些论文对博主项目的可参考程度。
论文的分类依据是该论文的主攻任务。例如DnCNN既可以用于去压缩失真，也可以用于去噪，但由于其主打任务是去噪，因此归为去噪。
很多方法，特别是深度学习方法，其网络结构是通用的。
若某论文同时存在期刊和会议版本，则会议版本将作为期刊版本的子项（缩进）。一些不值得看或高度雷同的扩展版本也会被收为子项。
图像方法含视频方法。准确表达是：visual data。
由于ImageNet的火热，加之体量足够大，因此在事实上成为了大家检验网络结构的主任务。鉴于此，我们将与CNN结构有关的论文也归为图像分类工作。注意其中有些论文不面向图像分类。

图像重建和增强

图像去压缩失真

压缩视频在近年来备受重视，在将来会更受重视。因为我们正在遭遇visual data explosion。

生成Q map，辅助JPEG质量增强网络

AGARNet: Adaptively Gated JPEG Compression Artifacts Removal Network for a Wide Range Quality Factor：相当于CBDNet的JPEG版本，但花里胡哨的。2020 IEEE ACCESS。⭐⭐
NL+Conv-LSTM代替MC+QE

由于NL采用的是相似度矩阵而非光流，因此更能够捕捉全局信息。类似于GNN相较于CNN的优势。2019 ICCV。⭐⭐⭐
多帧压缩视频质量增强（MFQE 2.0）

质量差帧借鉴质量好帧进行质量增强。第一个观察并利用了压缩视频质量波动特性。效果相比于图像增强方法实现了飞跃。2019 TPAMI。⭐⭐⭐⭐
- MC相邻帧+QE增强VVC视频（SDTS）
  
  Enhancing Quality for VVC Compressed Videos by Jointly Exploiting Spatial Details and Temporal Structure。套用MC+QE，没有考虑VVC特性的一篇VVC增强工作。2019 ICIP。⭐
- 多帧压缩视频质量增强（MFQE 1.0）
  
  Multi-frame Quality Enhancement of Compressed Video。2018 CVPR。⭐⭐⭐⭐
伪盲压缩图像增强

第一个尝试盲去压缩失真，可惜是“伪-盲”的。QP预测器+4个非盲增强网络。全程深度学习，没有针对压缩视频特性的升级。2019 TCSVT。⭐⭐⭐
CU分割图引导的压缩图像质量增强

将CU分割图卷积后，与增强网络的特征图融合。实验发现，对CU分割图进行平均池化搭配求和融合的效果最好。2018 ICIP。⭐⭐⭐
分别考虑HEVC压缩视频中的I帧和P/B帧（QE-CNN）

Enhancing Quality for HEVC Compressed Videos：DS-CNN的期刊版本。2018 TCSVT。⭐⭐
- 分别考虑HEVC压缩视频中的I帧和P/B帧（DS-CNN）
  
  Decoder-side HEVC Quality Enhancement with Scalable Convolutional Neural Network：对intra-coding单设支路，再融入inter-coding模式fine-tune。2017 ICME。⭐⭐
第一篇HEVC质量增强（DCAD）

10层CNN。但很有启发性：提升解码端质量 = 提升编解码器整体的压缩效率。借助外部数据和先验，突破率失真约束。2017 DCC。⭐⭐⭐
同时考虑JPEG图像的3种损失

同时使用感知损失、对抗损失和JPEG DCT量化合理性损失。2017 CVPR。⭐⭐
JPEG图像双域法快速重建（D3）

将基于字典学习和稀疏表示的双域法用深度学习实现。2016 CVPR。⭐⭐⭐
第一个将CNN用于JPEG去压缩失真（AR-CNN）

将CNN用于去压缩失真，并且探究了迁移学习训练较深网络的优势。2015 ICCV。⭐⭐⭐

图像去噪

关于去噪的相关文献概述、AWGN、成像噪声问题等，推荐看论文：Model-blind Video Denoising via Frame-to-frame Training的introduction部分。

第一篇视频盲去噪

基于预训练的DnCNN，利用Noise2Noise思想，根据输入视频进行fine-tune即可。无需任何干净图像和其他训练视频。写作太好了！概述太棒了！2019 CVPR。⭐⭐⭐⭐
盲去噪CNN（CBDNet）

生成噪声水平图，引导非盲去噪网络实现盲去噪。2019 CVPR。⭐⭐⭐
- 生成噪声图，指导非盲去噪网络中的多个block
  
  Adaptively Tuning a Convolutional Neural Network by Gate Process for Image Denoising：2019 IEEE ACCESS。⭐
无需干净样本的盲去噪（Noise2Noise）

由于有噪图像（同一分布的独立抽样）的期望是相同的，因此我们可以学习从有噪图像到有噪图像（同一分布的独立抽样）的映射，得到盲去噪网络，而无需干净图像。2018 ICML。⭐⭐⭐⭐⭐
噪声水平图引导的去噪CNN（FFDNet）

输入噪声水平图，引导去噪网络。2018 TIP。⭐⭐⭐
第一个DNN去噪（DnCNN）

20层去噪CNN。2017 TIP。⭐⭐⭐⭐

图像超分辨

Top-down反馈式递归

Feedback Network for Image Super-Resolution：用top-down反馈实现递归式超分辨。

优点：（1）参数量大幅减少。（2）实验证明比一些feedforward式效果更好；还可实现early reconstruction。作者认为这归功于每次递归时上一步的high-level info指导下一步。（3）可step-by-step恢复图像，可以easy-to-hard恢复垃圾图像。（借助curriculum-learning策略）

缺点：（1）对feedback优势的解释很主观。Early-reconstruction是很自然的，因为对于递归网络，loss建立在所有output之上，起到了deep supervision的作用。（2）Curriculum leanring需要人为设置难度次序。例如噪声和降采样杂糅，那么中间的target应该是有噪HR，还是无噪LR？

2019 CVPR。⭐⭐⭐
权衡主、客观质量

Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution：高频子带用GAN生成，低频子带用CNN增强，二者通过风格迁移网络融合，反变换得到增强图像。2019 ICCV。⭐⭐⭐
仿射变换置入类别先验

对中间层的特征图，根据图像分割信息（类别先验），学习仿射变换参数并进行仿射变换。类似于BN。2018 CVPR。⭐⭐⭐
亚像素运动补偿（SPMC）

设计了一个无参数的SPMC层，可以同时完成超分辨和运动补偿，让恢复的亚像素细节更真实。2017 ICCV。⭐⭐⭐⭐

图像质量评价

无参考

将pseudo reference image拓展至一般失真（BPRI）

比较失真图像和进一步失真图像的伪结构相似性或局部结构相似性，从而对失真图像实现盲IQA。2018 TMM。⭐⭐⭐
比较压缩图像和进一步压缩图像的伪结构相似性（PSS）

比较压缩图像和进一步压缩图像的伪结构相似性，从而对压缩图像实现盲IQA。2016 ICME。⭐⭐⭐
评估去模糊后的图像（DBIQ）

利用切比雪夫矩，同时评估平滑区域的块效应以及纹理区域的模糊效应。2016 Neurocomputing。⭐⭐⭐
根据统计特征的差异评估图像质量（NIQE）

统计自然图像的36个特征，用MVG建模。质量评分即自然图像和有损图像的MVG的距离。2013 IEEE SIGNAL PROCESSING LETTERS。⭐⭐⭐⭐

有参考

借助有损参考图像的2步图像质量评估（2stepQA）

先用NR方法评估有损参考图像的质量，再用R方法评估相对参考图像的质量，最终两个得分相乘。2019 TIP。⭐⭐⭐
对块效应敏感的PSNR-B指标

在PSNR的基础上，评估块效应强度，表现与SSIM接近，更贴近主观质量。2011 TIP。⭐⭐⭐

CNN结构/图像分类

提升性能

网络结构优化

稠密连接+短连接网络（RDN）

在全局和局部（每一个block内）都存在短连接和稠密连接。2018 CVPR。⭐⭐⭐
稠密连接网络（DenseNet）

稠密连接、窄通道，在网络健壮性和精简计算量之间实现权衡。2017 CVPR。⭐⭐⭐⭐
验证反馈学习的重要性

基于Conv-LSTM，实验性地探究了反馈结构对图像分类任务的意义。同时还结合了渐进课程学习方法，coarse-to-fine地惩罚网络，符合coarse-to-fine分类原理。2017 CVPR。⭐⭐⭐⭐
残差网络（ResNet）

学习残差，让深度网络逼近恒等变换。2015年各项计算机视觉赛事冠军。2016 CVPR。⭐⭐⭐⭐⭐
有门机制的深度网络（highway networks）

像LSTM一样，给深度网络加入跳过门机制，缓解深度网络信息流和梯度流问题。2015 ICML Workshop。⭐⭐⭐

注意力机制

BLOG 2020: Attention及其变种
N-L神经网络（non-local neural networks）

在ResNet中增加attention block。简单，有效。和self-attention异曲同工，但用在了图像分类、分割等视觉任务。2018 CVPR。⭐⭐⭐
通道非线性注意力机制（SENet）

用简单的FC，建模非线性的通道注意力。2018 CVPR。⭐⭐⭐⭐
堆叠残差软注意力模块（residual attention netowork）

不同level的注意力是不同的，并且残差注意力更有利于学习。2017 CVPR。⭐⭐⭐
完全基于注意力的编解码器（transformer）

无需RNN和Conv，完全基于注意力机制的序列建模。2017 NIPS。⭐⭐⭐⭐

正则化

Batch normalization

在每一层卷积的非线性之前，让特征正则化，有利于下一层网络学习。2015 ICML。⭐⭐⭐⭐⭐
《范数正则化基础》

⭐⭐⭐

节能加速

这些工作都是从降低冗余、节能加速的角度出发的，但有一些工作也能提升性能。

减小低频冗余（octave convolution）

用高斯滤波降采样，得到图像的高、低频分量。对低频分量采用尺寸更小的卷积通道。作者还设计了不同尺寸通道之间信息交流的方式。2019 ICCV。⭐⭐⭐
在图像恢复时考虑不同图像区域的难度差异

Path-Restore: Learning Network Path Selection for Image Restoration：在一个CNN block中提供多个通路，每种失真对应1个通路。此外还有一个短连接。LSTM-based pathfinder借助RL训练。

优点：（1）借助强化学习训练，pathfinder可以针对每一个图像区域，综合考虑图像内容和失真，来选择通路。节能。（2）Multi-path设计与传统的级联block相比有所创新。

缺点：（1）路径数设置比较主观。本文为去噪设2条路径，为复杂失真设4条路径。（2）pathfinder无法和CNN端到端训练。（3）按64x64分块。可能用deformable会更好。

2019 arXiv。⭐⭐⭐
自主跳过ResNet的某些block（SkipNet）

加入门模块，决策每个block是否跳过。作者通过监督预训练和强化学习，综合学习门策略。2018 ECCV。⭐⭐⭐
- 动态RDN
  
  Dynamic Residual Dense Network for Image Denoising：在RDN的基础上加入LSTM，判断某个RDB是否能被跳过，节省计算量。没开源，并且和SkipNet太像了，有抄袭之嫌。2019 Sensors。⭐
复杂样本复杂推理，简单样本简单推理（MSDNet）

简单样本可以early exit。作者设计了一个深度、多尺度的网络，缓冲中间层分类器的影响。2018 ICLR。⭐⭐⭐⭐
轻量级网络（MobileNet）

用两个超参数调节通道数和通道尺寸，大量集成深度可分离卷积。2017 arXiv。⭐⭐⭐
解耦通道互相关和空域互相关（Xception）

进一步解耦Inception模块的通道互相关和空域互相关操作。2017 CVPR。⭐⭐⭐⭐
为特征图上的各点提供early-stopping机制（SACT）

Spatially Adaptive Computation Time for Residual Networks：ACT是在每个res block内实现early stop，然后把经过的units加权组合，作为该block的输出。SACT进一步推广ACT：让map上每一个点都可以实现early-stopping，stop以后简单复制到后续位点即可。

优点：节能，效果类似人类视觉热点图。

缺点：（1）Halting机制简单但是粗糙。（2）Stop以后，该点会被复制用于后续对应位点，类似于短路连接。这样做最优吗？

2017 CVPR。⭐⭐⭐
RNN每一个时间步运算量不同（ACT）

让RNN的每一个时间步的运算量有差异。因为一句话里的每一个token的重要性是不一样的。2016 arXiv。⭐⭐⭐

图像增强/美图

对比度受限的自适应直方图均衡（CLAHE）

限制直方图分布函数的斜率，从而在AHE的同时抑制底噪放大。1994 Graphics gems IV。⭐⭐⭐⭐

图像压缩

新兴领域（2020仍是）。机器/深度学习引入的先验知识可以突破率失真曲线的天花板。

层次化压缩以利用高质量帧（HLVC）

Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement：层次化压缩，使视频帧中依次出现高质量帧、中质量帧和低质量帧。好处：（1）低质量帧可以在编码时借鉴高质量帧；（2）低质量帧在解码端质量增强时也能借鉴高质量帧。效果：PSNR超过x265 LDP的very fast模式。2020 CVPR。⭐⭐⭐
用可学习的重要性图代替熵率预测和码率控制

学习图像中每一个区域的重要性，控制每一个区域的码元长度，并作为压缩率损失而无需离散熵估计。此外，作者还引入了代理函数在BP中代替二元量化操作。2018 CVPR。⭐⭐⭐⭐

Meta-Learning

Meta-learning的目标是：让智能体经过轻量化训练，即可掌握新技能或适应新环境。这是AI的一大发展方向。

《Meta-Learning: Learning to Learn Fast》

介绍了基于有监督学习的meta-learning的3种方法。还有Meta reinforcement learning等本文并不涉及。⭐⭐⭐⭐

HEVC升级/加速

CNN替换SAO和deblocking（VRCNN）

A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding：所提出的VRCNN全称为Variable-filter-size Residue-learning CNN，其中可变滤波器尺寸即multi-scale卷积。能在HEVC基准上再节省4.6%的码率。2017 MMM。⭐⭐⭐

图像分割

更灵活的、可用于模型剪裁的嵌套式U-Net（UNet++）

UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation：本文提出UNet++，在U-Net的基础上实现了更全面的特征融合，同时让网络自主探索适宜深度。

优点：（1）包含Dense connection的优势。（2）深度无需多虑，可自主学习。（3）通过裁剪网络，可实现加速。

强推作者在知乎上的讲解。

2019 TMI。⭐⭐⭐⭐
渐进式地分割不同难度的区域

Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade：简单区域由浅层网络完成分割。网络可区分难易区域。

优点：（1）节能，快。（2）作者声称是第一个在deep model中考虑分割的region difficulty差异。

缺点：（1）在第二步训练时，无关区域将设为0再被卷积。设0是否合理？对feature map操作是否合理？（2）阈值pho是一个重要超参，合理设置需要观察大量实验。

2017 CVPR。⭐⭐⭐
U型编码-解码稠密连接网络（U-Net）

最初用于医学图像分割。但用于其他视觉任务效果奇佳。参数量只有4M。2015 MICCAI。⭐⭐⭐⭐

多任务和迁移学习

多任务自主routing（routing networks）

让网络自主决定共享或独立的结构。和cross-stitch（对比算法之一）很像。使用multi-agent policy，每个任务对应一个router和policy。实验结果和传统的底层共享机制不一致。2018 ICLR。⭐⭐⭐
量化多任务之间的相关性和最佳迁移策略（Taskonomy）

提供了实验方法，即测量迁移学习的成功性。2018 CVPR。⭐⭐⭐
自主学习两个网络之间的迁移（十字绣结构）

在两个网络之间构建十字绣结构，迁移参数是可学习的。2016 CVPR。⭐⭐⭐
探究深度网络特征的可迁移性

实验论证了深度网络中不同深度特征的可迁移性，同时论证了正确的迁移学习姿势。2014 NIPS。⭐⭐⭐⭐
首次系统阐述了多任务机制

MTL必引论文。1997 Machine Learning。⭐⭐⭐⭐⭐

共同学习和相互学习

相互学习（deep mutual learning）

让一群小模型共同优化，达到比单独学习和蒸馏学习更好的效果。这是一种优化策略上的健壮性提升，类似于dropout在网络结构上的健壮性提升。注意这不是多任务，每一个模型的目标是相同的。2018 CVPR。⭐⭐⭐⭐

神经网络可解释性

聚类分析异常决策

Unmasking Clever Hans Predictors and Assessing What Machines Really Learn：对大批量样本的LRP（策略解释）进行聚类，根据eigengaps选出可能异常的策略。本文发现了大量“投机取巧”的决策器，即所谓的“Clever Hans”。2019 NAT COMMUN。⭐⭐⭐⭐

其他

Talk

我们应该怎么看待图像处理和深度学习的关系？

Weeping and Cnashing of Teeth: Teaching Deep Learning in Image and Video Processing Classes：图像处理巨佬Bovik的思考和行动。读完之后我感觉，我决不应该把图像处理简单理解为``hand-crafted model''。路漫漫。2020 arXiv。⭐⭐⭐⭐⭐

教材

《DEEP LEARNING》

深度学习圣经，值得阅读和推敲。⭐⭐⭐⭐⭐

计算框架

PyTorch

PyTorch官方论文。2019 NIPS。⭐⭐⭐⭐

语音识别

端到端语音转文字神经网络（LAS）

考虑注意力机制，引入金字塔形BiLSTM。2016 ICASSP。⭐⭐⭐

奇葩应用

拟合图像处理算子的普适CNN结构

用一个高效CNN，分别拟合10种图像处理算子。2017 ICCV。⭐

posted @ 2019-10-18 13:04 RyanXing 阅读(1662) 评论(0) 编辑收藏举报

刷新页面返回顶部

RyanXing

Visual data processing & Computer vision.

论文库

论文库