LIIF笔记
20231106
链接:2012.09161.pdf (arxiv.org)
1.为了解决什么问题?
现实视觉世界是连续的,但是我们存放在计算机中的图像却是以离散的二维像素阵列存在。如果我们想训练一个卷积神经网路,我们通常需要将图像调整到相同的大小,这样会牺牲保真度。
2.现有方法瓶颈
现有的隐式神经表征在3D重建任务上取得了成功,但是基于编码器的隐式神经表示方法仅成功表示数字等简单图像,无法表示高保真度的自然图像。
3.本文解决方案
论文中说,他们将图像表示为一组分布在空间维度上的隐编码。给定一个坐标,解码函数获取坐标信息并查询该坐标周围的局部隐编码作为输入,将预测得出给定坐标的RGB值作为输出。由于坐标是连续的,LIIF可以表示任意分辨率。
!
文中通过具有超分辨率的自监督任务训练具有LIIF表示的编码器,编码器的输入和ground-truth的上采样尺度是连续不断变化的。
4.文章的创新
1.一种连续表示自然和复杂图像的新方法。2.LIIF表示可以表示在训练时没有呈现的更高的分辨率上。3.LIIF表示对于具有大小变化的图像学习任务是有效的。
5.LIIF
在LIIF中,每个连续图像
其中
在实验中,假设
对于一个定义的
我们为每个特征向量分配一个二维坐标,对于连续图像
其中
使用所有函数共享的函数
5.1 Feature unfloding
为了丰富
在
对于
5.2 局部ensemble
对于式子:
存在预测不连续的问题。如上图中所显示的那样,由于在
为了解决这个问题,于是将上式改写为:
其中,
我们事先已经认为潜在特征将在边界外被镜像地填充,因此,上式对于边界附近的坐标也是适用的。
直观上讲,这样做的目的是使得由局部隐编码所表示的局部片段能够和其周围的局部片段有所重合,进而使得每一个坐标处都有四个独立的隐编码对其进行独立的预测,且这四个独立预测的结果将进行加权,即为最终的预测结果。
这样就可以在
5.3 Cell decoding
在实践中,我们希望LILF能够以任意分辨率进行表达。假设我们已经给定了想要的分辨率,那么一种直观的方法就是直接通过
为了解决这个问题,文章提出了“cell decoding”,示意图如下所示:
且将
其中,
在进行连续表达的时候,实验会证明,额外给定一个c的输入是有所裨益的。
6.学习连续的图像表达
学习连续的图像表达的流程示意图为:
在该任务中,训练集为一系列的影像,目标是为一个网络没见过的图片生成连续的表达。
通常的思想是首先训练一个编码器
自然,我们希望LIIF不仅仅能够很好地表达输入,更重要的是能够形成一个连续的表达,希望其能够在高分辨率下也能够保证高保真,因此,文章设计了超分的自监督任务。
现在,我们对上图中的流程进行详细的描述,对于一张训练图像来说,首先对其进行随机尺度的下采样,作为网络的输入。而GT的获取则是通过将训练影像表示为像素样本 、
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek “源神”启动!「GitHub 热点速览」
· 我与微信审核的“相爱相杀”看个人小程序副业
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· C# 集成 DeepSeek 模型实现 AI 私有化(本地部署与 API 调用教程)
· spring官宣接入deepseek,真的太香了~