模糊耗散合成神经编解码器中的拉普拉斯熵模型

模糊耗散合成神经编解码器中的拉普拉斯熵模型
虽然用条件扩散模型代替高斯解码器,可以提高神经图像压缩中重建的感知质量,但它们缺乏对图像数据的感应偏差,限制了它们实现最先进感知水平的能力。为了解决这一局限性,在解码器侧采用了非各向同性扩散模型。该模型施加了一种感应偏置,旨在区分频率内容,从而促进高质量图像的生成。此外,改进的框架配备了一种新的熵模型,该模型通过利用潜在空间中的空间信道相关性来精确地模拟潜在表示的概率分布,同时加速熵解码步骤。这种信道熵模型利用了每个信道块内的局部和全局空间上下文。全局空间上下文建立在Transformer之上,Transformer是专门为图像压缩任务设计的。所设计的Transformer采用拉普拉斯形状的位置编码,其可学习参数针对每个信道簇进行自适应调整。实验表明,与前沿的基于生成的编解码器相比,提出的框架产生了更好的感知质量,并且提出的熵模型有助于显著节省比特率。
改进的神经编解码器概述,如图4-5所示。
 
图4-5 改进的神经编解码器概述
在图4-5中,基于扩散的解码器利用量化的语义潜在变量

 来生成逼真的重建图像。

改进方法的熵模型在解码中的应用如图4-6所示。
 
图4-6 改进方法的熵模型在解码中的应用
在图4-6中,(a)改进方法的熵模型在解码第

  个块

 中的应用。(b)全局空间上下文块。(c)棋盘形面具的一个例子。

获取大小为2×2的窗口的拉普拉斯相对位置编码的过程,如图4-7所示。
 
图4-7  获取大小为2×2的窗口的拉普拉斯相对位置编码的过程
posted @   吴建明wujianming  阅读(12)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2023-11-28 图形光栅化综合实现分析
2022-11-28 Chiplet-4D毫米波雷达-总线互联IP分析
2021-11-28 用动态实现扩展TVM
2021-11-28 三段式LLVM编译器
2020-11-28 runtime系统的Cello
2020-11-28 用户自定义协议client/server代码示例
2020-11-28 使用TensorRT集成推理inference
点击右上角即可分享
微信分享提示