11 2024 档案

摘要:语言能打败数值回归吗?基于语言的多模态轨迹预测 语言模型在语境理解和生成表现方面表现出了令人印象深刻的能力。受语言基础模型最近成功的启发,提出了LMTraj(基于语言的多模态轨迹预测器),它将轨迹预测任务转化为一种问答问题。与将轨迹坐标序列视为连续信号的传统数值回归模型不同,将其视为文本提示等离散信 阅读全文
posted @ 2024-11-30 05:05 吴建明wujianming 阅读(19) 评论(0) 推荐(0) 编辑
摘要:通过变化先验和条件扩散模型实现基于参考的超分辨率 基于参考的超分辨率(RefSR)有可能在遥感图像的空间和时间分辨率之间架起桥梁。然而,现有的RefSR方法受到内容重建的忠实性和大尺度因子下纹理转移有效性的限制。条件扩散模型为生成逼真的高分辨率图像开辟了新的机会,但在这些模型中有效利用参考图像仍然是 阅读全文
posted @ 2024-11-30 05:01 吴建明wujianming 阅读(56) 评论(0) 推荐(0) 编辑
摘要:无监督模板辅助点云形状对应网络 无监督点云形状对应旨在建立源点云和目标点云之间的逐点对应关系。现有方法通过计算点云之间的逐点特征相似度直接获得对应关系。然而,非刚性物体具有很强的变形能力和不寻常的形状,因此直接在具有非常规形状的点云之间建立对应关系是一个长期的挑战。为了应对这一挑战,提出了一种无监督 阅读全文
posted @ 2024-11-29 10:02 吴建明wujianming 阅读(14) 评论(0) 推荐(0) 编辑
摘要:模糊耗散合成神经编解码器中的拉普拉斯熵模型 虽然用条件扩散模型代替高斯解码器,可以提高神经图像压缩中重建的感知质量,但它们缺乏对图像数据的感应偏差,限制了它们实现最先进感知水平的能力。为了解决这一局限性,在解码器侧采用了非各向同性扩散模型。该模型施加了一种感应偏置,旨在区分频率内容,从而促进高质量图 阅读全文
posted @ 2024-11-28 04:50 吴建明wujianming 阅读(10) 评论(0) 推荐(0) 编辑
摘要:模糊耗散合成神经编解码器中的拉普拉斯熵模型 虽然用条件扩散模型代替高斯解码器,可以提高神经图像压缩中重建的感知质量,但它们缺乏对图像数据的感应偏差,限制了它们实现最先进感知水平的能力。为了解决这一局限性,在解码器侧采用了非各向同性扩散模型。该模型施加了一种感应偏置,旨在区分频率内容,从而促进高质量图 阅读全文
posted @ 2024-11-27 04:24 吴建明wujianming 阅读(7) 评论(0) 推荐(0) 编辑
摘要:CFAT:释放三角窗口实现图像超分辨率 基于变换器的模型通过利用其固有的捕获复杂上下文特征的能力,彻底改变了图像超分辨率(SR)的效果。如今,在Transformer架构中使用的重叠矩形移位窗口技术是超分辨率模型中的一种常见做法,可以提高图像放大的质量和鲁棒性。然而,它在边界处存在失真,并且具有有限 阅读全文
posted @ 2024-11-26 02:49 吴建明wujianming 阅读(22) 评论(0) 推荐(0) 编辑
摘要:SFOD:尖峰聚变目标探测器 事件摄像机具有高时间分辨率、高动态范围、低功耗和高像素带宽的特点,为特殊环境中的物体检测提供了独特的能力。尽管有这些优点,但事件数据的固有稀疏性和异步性对现有的对象检测算法提出了挑战。受人脑编码和处理信息方式的启发,尖峰神经网络(SNN)为这些难题提供了一种潜在的解决方 阅读全文
posted @ 2024-11-25 03:17 吴建明wujianming 阅读(26) 评论(0) 推荐(0) 编辑
摘要:通过学习先验增强基于流的生成超分辨率模型 基于流的超分辨率(SR)模型在生成高质量图像方面表现出了惊人的能力。然而,这些方法在图像生成过程中遇到了一些挑战,例如网格伪影、爆炸反转以及由于采样温度不稳定而导致的次优结果。为了克服这些问题,这项工作在基于流的SR模型的推理阶段之前引入了条件学习。该先验是 阅读全文
posted @ 2024-11-24 09:10 吴建明wujianming 阅读(69) 评论(0) 推荐(0) 编辑
摘要:LEAD:用于无源通用域自适应的学习分解 通用领域适应(UniDA)的目标是在存在协变量和标签转移的情况下进行知识转移。最近,出现了无源通用域适配(SF UniDA),可以在不访问源数据的情况下实现UniDA,由于数据保护政策,这往往更实用。主要的挑战在于确定协变量移位样本是否属于目标私有未知类别。 阅读全文
posted @ 2024-11-23 04:59 吴建明wujianming 阅读(50) 评论(0) 推荐(0) 编辑
摘要:无监督域自适应的域不可知相互激励 传统的无监督域自适应(UDA)致力于最大限度地减少域之间的分布差异,这忽视了从数据中利用丰富的语义,并难以处理复杂的域转换。一种有前景的技术是利用大规模预训练视觉语言模型的知识进行更有指导的适应。尽管做出了一些努力,但当前的方法通常会学习文本提示,分别嵌入源域和目标 阅读全文
posted @ 2024-11-23 04:40 吴建明wujianming 阅读(23) 评论(0) 推荐(0) 编辑
摘要:IMPRINT:通过学习身份保持表示进行生成对象合成 生成对象合成作为合成图像编辑的一种有前景的新途径出现了。然而,对象身份保存的要求带来了重大挑战,限制了大多数现有方法的实际使用。作为回应,介绍了IMPRINT,这是一种基于扩散的生成模型,采用两阶段学习框架进行训练,将身份保持学习与合成学习解耦。 阅读全文
posted @ 2024-11-17 17:24 吴建明wujianming 阅读(9) 评论(0) 推荐(0) 编辑
摘要:CuVLER:通过穷尽式自监督Transformer增强无监督对象发现 介绍了VoteCut,这是一种创新的无监督对象发现方法,它利用了来自多个自监督模型的特征表示。VoteCut采用基于归一化切割的图分割、聚类和像素投票方法。此外,还介绍了CuVLER(Cut-Vote-and-LEaRn),一种 阅读全文
posted @ 2024-11-17 04:20 吴建明wujianming 阅读(19) 评论(0) 推荐(0) 编辑
摘要:RealCustom:缩小真实文本词的范围,实现实时开放域文本到图像的定制 文本到图像定制旨在为给定的主题合成文本驱动的图像,最近彻底改变了内容创作。现有的作品遵循伪词范式,即将给定的主题表示为伪词,然后将其与给定的文本组合在一起。然而,伪词与给定文本固有的纠缠扩散范围导致了双重最优悖论,即给定主题 阅读全文
posted @ 2024-11-16 04:40 吴建明wujianming 阅读(24) 评论(0) 推荐(0) 编辑
摘要:超越图像超分辨率的任务驱动感知损失图像识别 在实际场景中,由于低分辨率(LR)内容中缺乏可用信息,图像识别任务(如语义分割和对象检测)通常会带来更大的挑战。图像超分辨率(SR)是解决这些挑战的有前景的解决方案之一。然而,由于SR的病态特性,典型的SR方法很难恢复与任务相关的高频内容,这可能会削弱使用 阅读全文
posted @ 2024-11-15 04:28 吴建明wujianming 阅读(25) 评论(0) 推荐(0) 编辑
摘要:4D医学图像的无中间帧数据高效无监督插值 4D医学图像代表具有时间信息的3D图像,在临床实践中对于捕捉动态变化和监测长期疾病进展至关重要。然而,由于辐射暴露和成像持续时间等因素,获取4D医学图像带来了挑战,需要在实现高时间分辨率和最小化不利影响之间取得平衡。鉴于这些情况,不仅数据采集具有挑战性,而且 阅读全文
posted @ 2024-11-15 04:24 吴建明wujianming 阅读(24) 评论(0) 推荐(0) 编辑
摘要:内视图和跨视图几何知识进行立体匹配 几何知识已被证明对立体匹配任务有益。然而,之前将几何见解整合到立体匹配算法中的尝试,主要集中在单个图像的几何知识上,而忽略了遮挡和匹配唯一性等关键的交叉视图因素。为了解决这一差距,提出了一种新的内视图和跨视图几何知识学习网络(ICGNet),专门用于吸收内视图和交 阅读全文
posted @ 2024-11-14 05:25 吴建明wujianming 阅读(12) 评论(0) 推荐(0) 编辑
摘要:APISR:受动漫制作启发的现实世界动漫超分辨率 虽然现实世界的动漫超分辨率(SR)在SR社区越来越受到关注,但现有的方法仍然采用真实感领域的技术。分析了动漫制作工作,并重新思考了如何为了现实世界的动漫SR而使用它的特点。首先,由于手绘框架的重复使用,视频网络和数据集对于动漫SR来说是不必要的。相反 阅读全文
posted @ 2024-11-13 05:43 吴建明wujianming 阅读(31) 评论(0) 推荐(0) 编辑
摘要:促进通用跨域检索中广义知识的模拟 ProS:促进通用跨域检索中广义知识的模拟 通用跨域检索(UCDR)的目标是在广义测试场景中实现稳健的性能,其中数据在训练过程中可能属于严格未知的域和类别。最近,具有快速调整的预训练模型显示出很强的泛化能力,并在各种下游任务中取得了显著成就,如少镜头学习和视频文本检 阅读全文
posted @ 2024-11-12 12:57 吴建明wujianming 阅读(11) 评论(0) 推荐(0) 编辑
摘要:CFAT:三角窗口实现图像超分辨率 基于变换器的模型通过利用其固有的捕获复杂上下文特征的能力,彻底改变了图像超分辨率(SR)的效果。如今,在Transformer架构中使用的重叠矩形移位窗口技术是超分辨率模型中的一种常见做法,可以提高图像放大的质量和鲁棒性。然而,它在边界处存在失真,并且具有有限的独 阅读全文
posted @ 2024-11-11 07:27 吴建明wujianming 阅读(31) 评论(0) 推荐(0) 编辑
摘要:CAMixerSR:只有细节需要更多关注 为了满足对大图像(2K-8K)超分辨率(SR)快速增长的需求,主流方法遵循两条独立的轨道:①通过内容感知路由加速现有网络;②通过令牌混合器重构设计更好的超分辨率网络。尽管直接,但它们遇到了不可避免的缺陷(例如,不灵活的路由或非歧视性处理),限制了质量-复杂性 阅读全文
posted @ 2024-11-10 10:37 吴建明wujianming 阅读(56) 评论(0) 推荐(0) 编辑
摘要:通过渐进式混合语境扩散完成Amodal 即使部分隐藏在视线之外,大脑也能毫不费力地识别物体。看到隐藏的可见物被称为amodal完成;然而,尽管进展迅速,但这项任务对生成式人工智能来说仍然是一个挑战。建议避开现有方法的许多困难,这些方法通常涉及预测amodal掩模然后生成像素的两步过程。方法涉及跳出思 阅读全文
posted @ 2024-11-10 10:33 吴建明wujianming 阅读(14) 评论(0) 推荐(0) 编辑
摘要:促进通用跨域检索中广义知识的模拟 ProS:促进通用跨域检索中广义知识的模拟 通用跨域检索(UCDR)的目标是在广义测试场景中实现稳健的性能,其中数据在训练过程中可能属于严格未知的域和类别。最近,具有快速调整的预训练模型显示出很强的泛化能力,并在各种下游任务中取得了显著成就,如少镜头学习和视频文本检 阅读全文
posted @ 2024-11-09 03:35 吴建明wujianming 阅读(12) 评论(0) 推荐(0) 编辑
摘要:ParamISP:使用相机参数学习正向和反向ISP RAW图像很少被共享,主要是因为与相机ISP获得的sRGB图像相比,RAW图像的数据量过大。最近已经证明,学习相机ISP的正向和反向过程,可以对输入的sRGB图像进行具有物理意义的RAW级图像处理。然而,现有的基于学习的ISP方法,无法处理ISP过 阅读全文
posted @ 2024-11-09 03:31 吴建明wujianming 阅读(42) 评论(0) 推荐(0) 编辑
摘要:CoSeR桥接图像和语言以实现认知超分辨率 6.10.1 CoSeR桥接图像和语言以实现认知超分辨率概述 现有的超分辨率(SR)模型主要侧重于恢复局部纹理细节,往往忽略了场景中的全局语义信息。这种疏忽可能会导致在恢复过程中遗漏关键的语义细节或引入不准确的纹理。 引入了认知超分辨率(CoSeR)框架, 阅读全文
posted @ 2024-11-03 14:03 吴建明wujianming 阅读(29) 评论(0) 推荐(0) 编辑
摘要:综合、诊断和优化:迈向精细视觉语言理解 6.8.1 综合、诊断和优化:迈向精细视觉语言理解概述 视觉语言模型(VLM)在各种下游任务中表现出了卓越的性能。 然而,理解细粒度的视觉语言概念,如属性和对象间关系,仍然是一个重大的挑战。虽然有几个基准旨在以更精细的粒度评估VLM,但它们的主要重点仍然是语言 阅读全文
posted @ 2024-11-03 13:56 吴建明wujianming 阅读(28) 评论(0) 推荐(0) 编辑
摘要:光谱和偏振视觉光谱偏振现实世界数据集技术分析 两种具有代表性的极化可视化,如图6-13所示。 图6-13 两种具有代表性的极化可视化 在图6-13中,(a)偏振椭圆描绘了投影到与光传播相切的平面上的电场振荡。(b)庞加莱球将光在归一化斯托克斯矢量轴上的偏振态可视化。 图6-14 光谱偏振图像数据集 阅读全文
posted @ 2024-11-02 18:35 吴建明wujianming 阅读(69) 评论(0) 推荐(0) 编辑
摘要:三重时空变化模式的视频协调 5.4.1 三重时空变化模式的视频协调概述 视频协调是一项重要而具有挑战性的任务,旨在通过自动调整前景的外观以与背景协调,从而获得视觉上逼真的合成视频。受手动协调的短期和长期逐步调整过程的启发,提出了一个视频三重变换器框架,用于模拟视频中的三种时空变化模式,即短期空间以及 阅读全文
posted @ 2024-11-01 09:17 吴建明wujianming 阅读(23) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示