STAR: 利用时空注意力机制和动态频率损失的视频超分辨率增强框架

STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模能力,有效处理复杂退化场景下的视觉伪影,同时解决了强生成模型导致的保真度损失问题。STAR的核心创新在于引入局部信息增强模块(LIEM)用于增强空间细节重建能力,并设计了动态频率(DF)损失函数,通过在扩散过程中对频率分量进行自适应调节来提升重建质量。实验表明,该方法在合成数据集和真实场景数据集上均优于现有最先进的方法。

 

https://avoid.overfit.cn/post/3e63ac5ec2844de6bd4d0675d13f7752

posted @   deephub  阅读(9)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
历史上的今天:
2024-02-19 4张图片就可以微调扩散模型
2023-02-19 PyTorch 并行训练 DistributedDataParallel完整代码示例
2022-02-19 混合密度网络(MDN)进行多元回归详解和代码示例
点击右上角即可分享
微信分享提示