论文库

论文库

Note:

  • 2020年停更。博主在用Zotero记录论文,直接在pdf上做笔记。博客效率不高啦。
  • 评分为博主的个人评价,而非客观衡量论文质量和贡献程度。评分主要考虑的是这些论文对博主项目的可参考程度。
  • 论文的分类依据是该论文的主攻任务。例如DnCNN既可以用于去压缩失真,也可以用于去噪,但由于其主打任务是去噪,因此归为去噪。
  • 很多方法,特别是深度学习方法,其网络结构是通用的。
  • 若某论文同时存在期刊和会议版本,则会议版本将作为期刊版本的子项(缩进)。一些不值得看或高度雷同的扩展版本也会被收为子项。
  • 图像方法含视频方法。准确表达是:visual data。
  • 由于ImageNet的火热,加之体量足够大,因此在事实上成为了大家检验网络结构的主任务。鉴于此,我们将与CNN结构有关的论文也归为图像分类工作。注意其中有些论文不面向图像分类。

图像重建和增强

图像去压缩失真

压缩视频在近年来备受重视,在将来会更受重视。因为我们正在遭遇visual data explosion。

  • 生成Q map,辅助JPEG质量增强网络

    AGARNet: Adaptively Gated JPEG Compression Artifacts Removal Network for a Wide Range Quality Factor:相当于CBDNet的JPEG版本,但花里胡哨的。2020 IEEE ACCESS。⭐⭐

  • NL+Conv-LSTM代替MC+QE

    由于NL采用的是相似度矩阵而非光流,因此更能够捕捉全局信息。类似于GNN相较于CNN的优势。2019 ICCV。⭐⭐⭐

  • 多帧压缩视频质量增强(MFQE 2.0)

    质量差帧借鉴质量好帧进行质量增强。第一个观察并利用了压缩视频质量波动特性。效果相比于图像增强方法实现了飞跃。2019 TPAMI。⭐⭐⭐⭐

    • MC相邻帧+QE增强VVC视频(SDTS)

      Enhancing Quality for VVC Compressed Videos by Jointly Exploiting Spatial Details and Temporal Structure。套用MC+QE,没有考虑VVC特性的一篇VVC增强工作。2019 ICIP。⭐

    • 多帧压缩视频质量增强(MFQE 1.0)

      Multi-frame Quality Enhancement of Compressed Video。2018 CVPR。⭐⭐⭐⭐

  • 伪盲压缩图像增强

    第一个尝试盲去压缩失真,可惜是“伪-盲”的。QP预测器+4个非盲增强网络。全程深度学习,没有针对压缩视频特性的升级。2019 TCSVT。⭐⭐⭐

  • CU分割图引导的压缩图像质量增强

    将CU分割图卷积后,与增强网络的特征图融合。实验发现,对CU分割图进行平均池化搭配求和融合的效果最好。2018 ICIP。⭐⭐⭐

  • 分别考虑HEVC压缩视频中的I帧和P/B帧(QE-CNN)

    Enhancing Quality for HEVC Compressed Videos:DS-CNN的期刊版本。2018 TCSVT。⭐⭐

    • 分别考虑HEVC压缩视频中的I帧和P/B帧(DS-CNN)

      Decoder-side HEVC Quality Enhancement with Scalable Convolutional Neural Network:对intra-coding单设支路,再融入inter-coding模式fine-tune。2017 ICME。⭐⭐

  • 第一篇HEVC质量增强(DCAD)

    10层CNN。但很有启发性:提升解码端质量 = 提升编解码器整体的压缩效率。借助外部数据和先验,突破率失真约束。2017 DCC。⭐⭐⭐

  • 同时考虑JPEG图像的3种损失

    同时使用感知损失、对抗损失和JPEG DCT量化合理性损失。2017 CVPR。⭐⭐

  • JPEG图像双域法快速重建(D3)

    将基于字典学习和稀疏表示的双域法用深度学习实现。2016 CVPR。⭐⭐⭐

  • 第一个将CNN用于JPEG去压缩失真(AR-CNN)

    将CNN用于去压缩失真,并且探究了迁移学习训练较深网络的优势。2015 ICCV。⭐⭐⭐

图像去噪

关于去噪的相关文献概述、AWGN、成像噪声问题等,推荐看论文:Model-blind Video Denoising via Frame-to-frame Training的introduction部分。

  • 第一篇视频盲去噪

    基于预训练的DnCNN,利用Noise2Noise思想,根据输入视频进行fine-tune即可。无需任何干净图像和其他训练视频。写作太好了!概述太棒了!2019 CVPR。⭐⭐⭐⭐

  • 盲去噪CNN(CBDNet)

    生成噪声水平图,引导非盲去噪网络实现盲去噪。2019 CVPR。⭐⭐⭐

    • 生成噪声图,指导非盲去噪网络中的多个block

      Adaptively Tuning a Convolutional Neural Network by Gate Process for Image Denoising:2019 IEEE ACCESS。⭐

  • 无需干净样本的盲去噪(Noise2Noise)

    由于有噪图像(同一分布的独立抽样)的期望是相同的,因此我们可以学习从有噪图像到有噪图像(同一分布的独立抽样)的映射,得到盲去噪网络,而无需干净图像。2018 ICML。⭐⭐⭐⭐⭐

  • 噪声水平图引导的去噪CNN(FFDNet)

    输入噪声水平图,引导去噪网络。2018 TIP。⭐⭐⭐

  • 第一个DNN去噪(DnCNN)

    20层去噪CNN。2017 TIP。⭐⭐⭐⭐

图像超分辨

  • Top-down反馈式递归

    Feedback Network for Image Super-Resolution:用top-down反馈实现递归式超分辨。

    优点:(1)参数量大幅减少。(2)实验证明比一些feedforward式效果更好;还可实现early reconstruction。作者认为这归功于每次递归时上一步的high-level info指导下一步。(3)可step-by-step恢复图像,可以easy-to-hard恢复垃圾图像。(借助curriculum-learning策略)

    缺点:(1)对feedback优势的解释很主观。Early-reconstruction是很自然的,因为对于递归网络,loss建立在所有output之上,起到了deep supervision的作用。(2)Curriculum leanring需要人为设置难度次序。例如噪声和降采样杂糅,那么中间的target应该是有噪HR,还是无噪LR?

    2019 CVPR。⭐⭐⭐

  • 权衡主、客观质量

    Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution:高频子带用GAN生成,低频子带用CNN增强,二者通过风格迁移网络融合,反变换得到增强图像。2019 ICCV。⭐⭐⭐

  • 仿射变换置入类别先验

    对中间层的特征图,根据图像分割信息(类别先验),学习仿射变换参数并进行仿射变换。类似于BN。2018 CVPR。⭐⭐⭐

  • 亚像素运动补偿(SPMC)

    设计了一个无参数的SPMC层,可以同时完成超分辨和运动补偿,让恢复的亚像素细节更真实。2017 ICCV。⭐⭐⭐⭐

图像质量评价

无参考

有参考

CNN结构/图像分类

提升性能

网络结构优化

  • 稠密连接+短连接网络(RDN)

    在全局和局部(每一个block内)都存在短连接和稠密连接。2018 CVPR。⭐⭐⭐

  • 稠密连接网络(DenseNet)

    稠密连接、窄通道,在网络健壮性和精简计算量之间实现权衡。2017 CVPR。⭐⭐⭐⭐

  • 验证反馈学习的重要性

    基于Conv-LSTM,实验性地探究了反馈结构对图像分类任务的意义。同时还结合了渐进课程学习方法,coarse-to-fine地惩罚网络,符合coarse-to-fine分类原理。2017 CVPR。⭐⭐⭐⭐

  • 残差网络(ResNet)

    学习残差,让深度网络逼近恒等变换。2015年各项计算机视觉赛事冠军。2016 CVPR。⭐⭐⭐⭐⭐

  • 有门机制的深度网络(highway networks)

    像LSTM一样,给深度网络加入跳过门机制,缓解深度网络信息流和梯度流问题。2015 ICML Workshop。⭐⭐⭐

注意力机制

正则化

节能加速

这些工作都是从降低冗余、节能加速的角度出发的,但有一些工作也能提升性能。

  • 减小低频冗余(octave convolution)

    用高斯滤波降采样,得到图像的高、低频分量。对低频分量采用尺寸更小的卷积通道。作者还设计了不同尺寸通道之间信息交流的方式。2019 ICCV。⭐⭐⭐

  • 在图像恢复时考虑不同图像区域的难度差异

    Path-Restore: Learning Network Path Selection for Image Restoration:在一个CNN block中提供多个通路,每种失真对应1个通路。此外还有一个短连接。LSTM-based pathfinder借助RL训练。

    优点:(1)借助强化学习训练,pathfinder可以针对每一个图像区域,综合考虑图像内容和失真,来选择通路。节能。(2)Multi-path设计与传统的级联block相比有所创新。

    缺点:(1)路径数设置比较主观。本文为去噪设2条路径,为复杂失真设4条路径。(2)pathfinder无法和CNN端到端训练。(3)按64x64分块。可能用deformable会更好。

    2019 arXiv。⭐⭐⭐

  • 自主跳过ResNet的某些block(SkipNet)

    加入门模块,决策每个block是否跳过。作者通过监督预训练和强化学习,综合学习门策略。2018 ECCV。⭐⭐⭐

    • 动态RDN

      Dynamic Residual Dense Network for Image Denoising:在RDN的基础上加入LSTM,判断某个RDB是否能被跳过,节省计算量。没开源,并且和SkipNet太像了,有抄袭之嫌。2019 Sensors。⭐

  • 复杂样本复杂推理,简单样本简单推理(MSDNet)

    简单样本可以early exit。作者设计了一个深度、多尺度的网络,缓冲中间层分类器的影响。2018 ICLR。⭐⭐⭐⭐

  • 轻量级网络(MobileNet)

    用两个超参数调节通道数和通道尺寸,大量集成深度可分离卷积。2017 arXiv。⭐⭐⭐

  • 解耦通道互相关和空域互相关(Xception)

    进一步解耦Inception模块的通道互相关和空域互相关操作。2017 CVPR。⭐⭐⭐⭐

  • 为特征图上的各点提供early-stopping机制(SACT)

    Spatially Adaptive Computation Time for Residual Networks:ACT是在每个res block内实现early stop,然后把经过的units加权组合,作为该block的输出。SACT进一步推广ACT:让map上每一个点都可以实现early-stopping,stop以后简单复制到后续位点即可。

    优点:节能,效果类似人类视觉热点图。

    缺点:(1)Halting机制简单但是粗糙。(2)Stop以后,该点会被复制用于后续对应位点,类似于短路连接。这样做最优吗?

    2017 CVPR。⭐⭐⭐

  • RNN每一个时间步运算量不同(ACT)

    让RNN的每一个时间步的运算量有差异。因为一句话里的每一个token的重要性是不一样的。2016 arXiv。⭐⭐⭐

图像增强/美图

图像压缩

新兴领域(2020仍是)。机器/深度学习引入的先验知识可以突破率失真曲线的天花板。

  • 层次化压缩以利用高质量帧(HLVC)

    Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement:层次化压缩,使视频帧中依次出现高质量帧、中质量帧和低质量帧。好处:(1) 低质量帧可以在编码时借鉴高质量帧;(2)低质量帧在解码端质量增强时也能借鉴高质量帧。效果:PSNR超过x265 LDP的very fast模式。2020 CVPR。⭐⭐⭐

  • 用可学习的重要性图代替熵率预测和码率控制

    学习图像中每一个区域的重要性,控制每一个区域的码元长度,并作为压缩率损失而无需离散熵估计。此外,作者还引入了代理函数 在BP中代替二元量化操作。2018 CVPR。⭐⭐⭐⭐

Meta-Learning

Meta-learning的目标是:让智能体经过轻量化训练,即可掌握新技能或适应新环境。这是AI的一大发展方向。

HEVC升级/加速

  • CNN替换SAO和deblocking(VRCNN)

    A Convolutional Neural Network Approach for Post-Processing in HEVC Intra Coding:所提出的VRCNN全称为Variable-filter-size Residue-learning CNN,其中可变滤波器尺寸即multi-scale卷积。能在HEVC基准上再节省4.6%的码率。2017 MMM。⭐⭐⭐

图像分割

  • 更灵活的、可用于模型剪裁的嵌套式U-Net(UNet++)

    UNet++: Redesigning Skip Connections to Exploit Multiscale Features in Image Segmentation:本文提出UNet++,在U-Net的基础上实现了更全面的特征融合,同时让网络自主探索适宜深度。

    优点:(1)包含Dense connection的优势。(2)深度无需多虑,可自主学习。(3)通过裁剪网络,可实现加速。

    强推作者在知乎上的讲解

    2019 TMI。⭐⭐⭐⭐

  • 渐进式地分割不同难度的区域

    Not All Pixels Are Equal: Difficulty-Aware Semantic Segmentation via Deep Layer Cascade:简单区域由浅层网络完成分割。网络可区分难易区域。

    优点:(1)节能,快。(2)作者声称是第一个在deep model中考虑分割的region difficulty差异。

    缺点:(1)在第二步训练时,无关区域将设为0再被卷积。设0是否合理?对feature map操作是否合理?(2)阈值pho是一个重要超参,合理设置需要观察大量实验。

    2017 CVPR。⭐⭐⭐

  • U型编码-解码稠密连接网络(U-Net)

    最初用于医学图像分割。但用于其他视觉任务效果奇佳。参数量只有4M。2015 MICCAI。⭐⭐⭐⭐

多任务和迁移学习

共同学习和相互学习

  • 相互学习(deep mutual learning)

    让一群小模型共同优化,达到比单独学习和蒸馏学习更好的效果。这是一种优化策略上的健壮性提升,类似于dropout在网络结构上的健壮性提升。注意这不是多任务,每一个模型的目标是相同的。2018 CVPR。⭐⭐⭐⭐

神经网络可解释性

  • 聚类分析异常决策

    Unmasking Clever Hans Predictors and Assessing What Machines Really Learn:对大批量样本的LRP(策略解释)进行聚类,根据eigengaps选出可能异常的策略。本文发现了大量“投机取巧”的决策器,即所谓的“Clever Hans”。2019 NAT COMMUN。⭐⭐⭐⭐

其他

Talk

  • 我们应该怎么看待图像处理和深度学习的关系?

    Weeping and Cnashing of Teeth: Teaching Deep Learning in Image and Video Processing Classes:图像处理巨佬Bovik的思考和行动。读完之后我感觉,我决不应该把图像处理简单理解为``hand-crafted model''。路漫漫。2020 arXiv。⭐⭐⭐⭐⭐

教材

计算框架

  • PyTorch

    PyTorch官方论文。2019 NIPS。⭐⭐⭐⭐

语音识别

奇葩应用

posted @ 2019-10-18 13:04  RyanXing  阅读(1617)  评论(0编辑  收藏  举报