论文库
论文库
Note:
- 2020年停更。博主在用Zotero记录论文,直接在pdf上做笔记。博客效率不高啦。
- 评分为博主的个人评价,而非客观衡量论文质量和贡献程度。评分主要考虑的是这些论文对博主项目的可参考程度。
- 论文的分类依据是该论文的主攻任务。例如DnCNN既可以用于去压缩失真,也可以用于去噪,但由于其主打任务是去噪,因此归为去噪。
- 很多方法,特别是深度学习方法,其网络结构是通用的。
- 若某论文同时存在期刊和会议版本,则会议版本将作为期刊版本的子项(缩进)。一些不值得看或高度雷同的扩展版本也会被收为子项。
- 图像方法含视频方法。准确表达是:visual data。
- 由于ImageNet的火热,加之体量足够大,因此在事实上成为了大家检验网络结构的主任务。鉴于此,我们将与CNN结构有关的论文也归为图像分类工作。注意其中有些论文不面向图像分类。
图像重建和增强
图像去压缩失真
压缩视频在近年来备受重视,在将来会更受重视。因为我们正在遭遇visual data explosion。
-
生成Q map,辅助JPEG质量增强网络
AGARNet: Adaptively Gated JPEG Compression Artifacts Removal Network for a Wide Range Quality Factor:相当于CBDNet的JPEG版本,但花里胡哨的。2020 IEEE ACCESS。⭐⭐
-
由于NL采用的是相似度矩阵而非光流,因此更能够捕捉全局信息。类似于GNN相较于CNN的优势。2019 ICCV。⭐⭐⭐
-
质量差帧借鉴质量好帧进行质量增强。第一个观察并利用了压缩视频质量波动特性。效果相比于图像增强方法实现了飞跃。2019 TPAMI。⭐⭐⭐⭐
-
MC相邻帧+QE增强VVC视频(SDTS)
Enhancing Quality for VVC Compressed Videos by Jointly Exploiting Spatial Details and Temporal Structure。套用MC+QE,没有考虑VVC特性的一篇VVC增强工作。2019 ICIP。⭐
-
多帧压缩视频质量增强(MFQE 1.0)
Multi-frame Quality Enhancement of Compressed Video。2018 CVPR。⭐⭐⭐⭐
-
-
第一个尝试盲去压缩失真,可惜是“伪-盲”的。QP预测器+4个非盲增强网络。全程深度学习,没有针对压缩视频特性的升级。2019 TCSVT。⭐⭐⭐
-
将CU分割图卷积后,与增强网络的特征图融合。实验发现,对CU分割图进行平均池化搭配求和融合的效果最好。2018 ICIP。⭐⭐⭐
-
分别考虑HEVC压缩视频中的I帧和P/B帧(QE-CNN)
Enhancing Quality for HEVC Compressed Videos:DS-CNN的期刊版本。2018 TCSVT。⭐⭐
-
分别考虑HEVC压缩视频中的I帧和P/B帧(DS-CNN)
Decoder-side HEVC Quality Enhancement with Scalable Convolutional Neural Network:对intra-coding单设支路,再融入inter-coding模式fine-tune。2017 ICME。⭐⭐
-
-
10层CNN。但很有启发性:提升解码端质量 = 提升编解码器整体的压缩效率。借助外部数据和先验,突破率失真约束。2017 DCC。⭐⭐⭐
-
同时使用感知损失、对抗损失和JPEG DCT量化合理性损失。2017 CVPR。⭐⭐
-
将基于字典学习和稀疏表示的双域法用深度学习实现。2016 CVPR。⭐⭐⭐
-
将CNN用于去压缩失真,并且探究了迁移学习训练较深网络的优势。2015 ICCV。⭐⭐⭐
图像去噪
关于去噪的相关文献概述、AWGN、成像噪声问题等,推荐看论文:Model-blind Video Denoising via Frame-to-frame Training的introduction部分。
-
基于预训练的DnCNN,利用Noise2Noise思想,根据输入视频进行fine-tune即可。无需任何干净图像和其他训练视频。写作太好了!概述太棒了!2019 CVPR。⭐⭐⭐⭐
-
生成噪声水平图,引导非盲去噪网络实现盲去噪。2019 CVPR。⭐⭐⭐
-
生成噪声图,指导非盲去噪网络中的多个block
Adaptively Tuning a Convolutional Neural Network by Gate Process for Image Denoising:2019 IEEE ACCESS。⭐
-
-
由于有噪图像(同一分布的独立抽样)的期望是相同的,因此我们可以学习从有噪图像到有噪图像(同一分布的独立抽样)的映射,得到盲去噪网络,而无需干净图像。2018 ICML。⭐⭐⭐⭐⭐
-
输入噪声水平图,引导去噪网络。2018 TIP。⭐⭐⭐
-
20层去噪CNN。2017 TIP。⭐⭐⭐⭐
图像超分辨
-
Top-down反馈式递归
Feedback Network for Image Super-Resolution:用top-down反馈实现递归式超分辨。
优点:(1)参数量大幅减少。(2)实验证明比一些feedforward式效果更好;还可实现early reconstruction。作者认为这归功于每次递归时上一步的high-level info指导下一步。(3)可step-by-step恢复图像,可以easy-to-hard恢复垃圾图像。(借助curriculum-learning策略)
缺点:(1)对feedback优势的解释很主观。Early-reconstruction是很自然的,因为对于递归网络,loss建立在所有output之上,起到了deep supervision的作用。(2)Curriculum leanring需要人为设置难度次序。例如噪声和降采样杂糅,那么中间的target应该是有噪HR,还是无噪LR?
2019 CVPR。⭐⭐⭐
-
权衡主、客观质量
Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution:高频子带用GAN生成,低频子带用CNN增强,二者通过风格迁移网络融合,反变换得到增强图像。2019 ICCV。⭐⭐⭐
-
对中间层的特征图,根据图像分割信息(类别先验),学习仿射变换参数并进行仿射变换。类似于BN。2018 CVPR。⭐⭐⭐
-
设计了一个无参数的SPMC层,可以同时完成超分辨和运动补偿,让恢复的亚像素细节更真实。2017 ICCV。⭐⭐⭐⭐
图像质量评价
无参考
-
将pseudo reference image拓展至一般失真(BPRI)
比较失真图像和进一步失真图像的伪结构相似性或局部结构相似性,从而对失真图像实现盲IQA。2018 TMM。⭐⭐⭐
-
比较压缩图像和进一步压缩图像的伪结构相似性,从而对压缩图像实现盲IQA。2016 ICME。⭐⭐⭐
-
利用切比雪夫矩,同时评估 平滑区域的块效应 以及 纹理区域的模糊效应。2016 Neurocomputing。⭐⭐⭐
-
统计自然图像的36个特征,用MVG建模。质量评分即自然图像和有损图像的MVG的距离。2013 IEEE SIGNAL PROCESSING LETTERS。⭐⭐⭐⭐
有参考
-
先用NR方法评估有损参考图像的质量,再用R方法评估相对参考图像的质量,最终两个得分相乘。2019 TIP。⭐⭐⭐
-
在PSNR的基础上,评估块效应强度,表现与SSIM接近,更贴近主观质量。2011 TIP。⭐⭐⭐
CNN结构/图像分类
提升性能
网络结构优化
-
在全局和局部(每一个block内)都存在短连接和稠密连接。2018 CVPR。⭐⭐⭐
-
稠密连接、窄通道,在网络健壮性和精简计算量之间实现权衡。2017 CVPR。⭐⭐⭐⭐
-
基于Conv-LSTM,实验性地探究了反馈结构对图像分类任务的意义。同时还结合了渐进课程学习方法,coarse-to-fine地惩罚网络,符合coarse-to-fine分类原理。2017 CVPR。⭐⭐⭐⭐
-
学习残差,让深度网络逼近恒等变换。2015年各项计算机视觉赛事冠军。2016 CVPR。⭐⭐⭐⭐⭐
-
像LSTM一样,给深度网络加入跳过门机制,缓解深度网络信息流和梯度流问题。2015 ICML Workshop。⭐⭐⭐
注意力机制
-
N-L神经网络(non-local neural networks)
在ResNet中增加attention block。简单,有效。和self-attention异曲同工,但用在了图像分类、分割等视觉任务。2018 CVPR。⭐⭐⭐
-
用简单的FC,建模非线性的通道注意力。2018 CVPR。⭐⭐⭐⭐
-
堆叠残差软注意力模块(residual attention netowork)
不同level的注意力是不同的,并且残差注意力更有利于学习。2017 CVPR。⭐⭐⭐
-
无需RNN和Conv,完全基于注意力机制的序列建模。2017 NIPS。⭐⭐⭐⭐
正则化
-
在每一层卷积的非线性之前,让特征正则化,有利于下一层网络学习。2015 ICML。⭐⭐⭐⭐⭐
-
⭐⭐⭐
节能加速
这些工作都是从降低冗余、节能加速的角度出发的,但有一些工作也能提升性能。
-
用高斯滤波降采样,得到图像的高、低频分量。对低频分量采用尺寸更小的卷积通道。作者还设计了不同尺寸通道之间信息交流的方式。2019 ICCV。⭐⭐⭐
-
在图像恢复时考虑不同图像区域的难度差异
Path-Restore: Learning Network Path Selection for Image Restoration:在一个CNN block中提供多个通路,每种失真对应1个通路。此外还有一个短连接。LSTM-based pathfinder借助RL训练。
优点:(1)借助强化学习训练,pathfinder可以针对每一个图像区域,综合考虑图像内容和失真,来选择通路。节能。(2)Multi-path设计与传统的级联block相比有所创新。
缺点:(1)路径数设置比较主观。本文为去噪设2条路径,为复杂失真设4条路径。(2)pathfinder无法和CNN端到端训练。(3)按64x64分块。可能用deformable会更好。
2019 arXiv。⭐⭐⭐
-
加入门模块,决策每个block是否跳过。作者通过监督预训练和强化学习,综合学习门策略。2018 ECCV。⭐⭐⭐
-
动态RDN
Dynamic Residual Dense Network for Image Denoising:在RDN的基础上加入LSTM,判断某个RDB是否能被跳过,节省计算量。没开源,并且和SkipNet太像了,有抄袭之嫌。2019 Sensors。⭐
-
-
简单样本可以early exit。作者设计了一个深度、多尺度的网络,缓冲中间层分类器的影响。2018 ICLR。⭐⭐⭐⭐
-
用两个超参数调节通道数和通道尺寸,大量集成深度可分离卷积。2017 arXiv。⭐⭐⭐
-
进一步解耦Inception模块的通道互相关和空域互相关操作。2017 CVPR。⭐⭐⭐⭐
-
为特征图上的各点提供early-stopping机制(SACT)
Spatially Adaptive Computation Time for Residual Networks:ACT是在每个res block内实现early stop,然后把经过的units加权组合,作为该block的输出。SACT进一步推广ACT:让map上每一个点都可以实现early-stopping,stop以后简单复制到后续位点即可。
优点:节能,效果类似人类视觉热点图。
缺点:(1)Halting机制简单但是粗糙。(2)Stop以后,该点会被复制用于后续对应位点,类似于短路连接。这样做最优吗?
2017 CVPR。⭐⭐⭐
-
让RNN的每一个时间步的运算量有差异。因为一句话里的每一个token的重要性是不一样的。2016 arXiv。⭐⭐⭐
图像增强/美图
-
限制直方图分布函数的斜率,从而在AHE的同时抑制底噪放大。1994 Graphics gems IV。⭐⭐⭐⭐
图像压缩
新兴领域(2020仍是)。机器/深度学习引入的先验知识可以突破率失真曲线的天花板。
-
层次化压缩以利用高质量帧(HLVC)
Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement:层次化压缩,使视频帧中依次出现高质量帧、中质量帧和低质量帧。好处:(1) 低质量帧可以在编码时借鉴高质量帧;(2)低质量帧在解码端质量增强时也能借鉴高质量帧。效果:PSNR超过x265 LDP的very fast模式。2020 CVPR。⭐⭐⭐
-
学习图像中每一个区域的重要性,控制每一个区域的码元长度,并作为压缩率损失而无需离散熵估计。此外,作者还引入了代理函数 在BP中代替二元量化操作。2018 CVPR。⭐⭐⭐⭐
Meta-Learning
Meta-learning的目标是:让智能体经过轻量化训练,即可掌握新技能或适应新环境。这是AI的一大发展方向。
-
《Meta-Learning: Learning to Learn Fast》
介绍了基于有监督学习的meta-learning的3种方法。还有Meta reinforcement learning等本文并不涉及。⭐⭐⭐⭐
HEVC升级/加速
-
CNN替换SAO和deblocking(VRCNN)
A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding:所提出的VRCNN全称为Variable-filter-size Residue-learning CNN,其中可变滤波器尺寸即multi-scale卷积。能在HEVC基准上再节省4.6%的码率。2017 MMM。⭐⭐⭐
图像分割
-
更灵活的、可用于模型剪裁的嵌套式U-Net(UNet++)
UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation:本文提出UNet++,在U-Net的基础上实现了更全面的特征融合,同时让网络自主探索适宜深度。
优点:(1)包含Dense connection的优势。(2)深度无需多虑,可自主学习。(3)通过裁剪网络,可实现加速。
强推作者在知乎上的讲解。
2019 TMI。⭐⭐⭐⭐
-
渐进式地分割不同难度的区域
Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade:简单区域由浅层网络完成分割。网络可区分难易区域。
优点:(1)节能,快。(2)作者声称是第一个在deep model中考虑分割的region difficulty差异。
缺点:(1)在第二步训练时,无关区域将设为0再被卷积。设0是否合理?对feature map操作是否合理?(2)阈值pho是一个重要超参,合理设置需要观察大量实验。
2017 CVPR。⭐⭐⭐
-
最初用于医学图像分割。但用于其他视觉任务效果奇佳。参数量只有4M。2015 MICCAI。⭐⭐⭐⭐
多任务和迁移学习
-
多任务自主routing(routing networks)
让网络自主决定共享或独立的结构。和cross-stitch(对比算法之一)很像。使用multi-agent policy,每个任务对应一个router和policy。实验结果和传统的底层共享机制不一致。2018 ICLR。⭐⭐⭐
-
提供了实验方法,即测量迁移学习的成功性。2018 CVPR。⭐⭐⭐
-
在两个网络之间构建十字绣结构,迁移参数是可学习的。2016 CVPR。⭐⭐⭐
-
实验论证了深度网络中不同深度特征的可迁移性,同时论证了正确的迁移学习姿势。2014 NIPS。⭐⭐⭐⭐
-
MTL必引论文。1997 Machine Learning。⭐⭐⭐⭐⭐
共同学习和相互学习
-
让一群小模型共同优化,达到比单独学习和蒸馏学习更好的效果。这是一种优化策略上的健壮性提升,类似于dropout在网络结构上的健壮性提升。注意这不是多任务,每一个模型的目标是相同的。2018 CVPR。⭐⭐⭐⭐
神经网络可解释性
-
聚类分析异常决策
Unmasking Clever Hans Predictors and Assessing What Machines Really Learn:对大批量样本的LRP(策略解释)进行聚类,根据eigengaps选出可能异常的策略。本文发现了大量“投机取巧”的决策器,即所谓的“Clever Hans”。2019 NAT COMMUN。⭐⭐⭐⭐
其他
Talk
-
我们应该怎么看待图像处理和深度学习的关系?
Weeping and Cnashing of Teeth: Teaching Deep Learning in Image and Video Processing Classes:图像处理巨佬Bovik的思考和行动。读完之后我感觉,我决不应该把图像处理简单理解为``hand-crafted model''。路漫漫。2020 arXiv。⭐⭐⭐⭐⭐
教材
-
深度学习圣经,值得阅读和推敲。⭐⭐⭐⭐⭐
计算框架
-
PyTorch官方论文。2019 NIPS。⭐⭐⭐⭐
语音识别
-
考虑注意力机制,引入金字塔形BiLSTM。2016 ICASSP。⭐⭐⭐
奇葩应用
-
用一个高效CNN,分别拟合10种图像处理算子。2017 ICCV。⭐