上一页 1 2 3 4 5 6 ··· 20 下一页
摘要: 论文探索了在中型ImageNet-1k数据集上预训练的普通ViT到更具挑战性的COCO目标检测基准的可迁移性,提出了基于Vision Transformer的You Only Look at One Sequence(YOLOS)目标检测模型。在具有挑战性的COCO目标检测基准上的实验结果表明,2D 阅读全文
posted @ 2024-09-02 12:34 晓飞的算法工程笔记 阅读(19) 评论(0) 推荐(0) 编辑
摘要: Less-Attention Vision Transformer利用了在多头自注意力(MHSA)块中计算的依赖关系,通过重复使用先前MSA块的注意力来绕过注意力计算,还额外增加了一个简单的保持对角性的损失函数,旨在促进注意力矩阵在表示标记之间关系方面的预期行为。该架构你能有效地捕捉了跨标记的关联, 阅读全文
posted @ 2024-09-02 12:21 晓飞的算法工程笔记 阅读(244) 评论(0) 推荐(0) 编辑
摘要: 首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究,展示了如SynCLIP和SynCLR等合成克隆模型,其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标,除了常见的图像损坏和OOD(域外分布)检测。另一方面,监督模型SynViT-B在除形状偏差外的 阅读全文
posted @ 2024-08-30 13:39 晓飞的算法工程笔记 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 论文提出一种新颖的POA自监督学习范式,通过弹性分支设计允许同时对多种尺寸的模型进行预训练。POA可以直接从预训练teacher生成不同尺寸的模型,并且这些模型可以直接用于下游任务而无需额外的预训练。这个优势显著提高了部署灵活性,并有助于预训练的模型在各种视觉任务中取得SOTA结果。 来源:晓飞的算 阅读全文
posted @ 2024-08-30 13:34 晓飞的算法工程笔记 阅读(189) 评论(0) 推荐(0) 编辑
摘要: 论文将多模态可靠反馈网络(RFNet)结合到一个循环生成图片过程中,可以增加可用的广告图片数量。为了进一步提高生产效率,利用RFNet反馈进行创新的一致条件正则化,对扩散模型进行微调(RFFT),显著增加生成图片的可用率,减少了循环生成中的尝试次数,并提供了高效的生产过程,而不牺牲视觉吸引力。论文还 阅读全文
posted @ 2024-08-29 10:01 晓飞的算法工程笔记 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 基于像素级分类器的单图像超分辨率方法(PCSR)是一种针对大图像高效超分辨率的新方法,在像素级别分配计算资源,处理不同的恢复难度,并通过更精细的粒度减少冗余计算。它还在推断过程中提供可调节性,平衡性能和计算成本而无需重新训练。此外,还提供了使用K均值聚类进行自动像素分配以及后处理技术来消除伪影。 来 阅读全文
posted @ 2024-08-29 09:52 晓飞的算法工程笔记 阅读(307) 评论(0) 推荐(3) 编辑
摘要: 在光照条件不佳下捕获的图像可能同时包含过曝和欠曝。目前的方法主要集中在调整图像亮度上,这可能会加剧欠曝区域的色调失真,并且无法恢复过曝区域的准确颜色。论文提出通过学习估计和校正这种色调偏移,来增强既有过曝又有欠曝的图像。先通过基于UNet的网络推导输入图像的增亮和变暗版本的色彩特征图,然后使用伪正常 阅读全文
posted @ 2024-08-28 09:54 晓飞的算法工程笔记 阅读(231) 评论(0) 推荐(0) 编辑
摘要: \({\tt FlexAttention}\) 是一种旨在增强大型视觉语言模型的方法,通过利用动态高分辨率特征选择和分层自注意机制,使其能够有效地处理并从高分辨率图像输入中获得优势, \({\tt FlexAttention}\) 在性能和效率方面超越了现有的高分辨率方法。 来源:晓飞的算法工程笔记 阅读全文
posted @ 2024-08-28 09:48 晓飞的算法工程笔记 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 论文提出二值化多任务密集预测器 Bi-MTDP,通过二值神经网络(BNNs)显著加速多任务密集预测模型,同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降,论文引入了深度信息瓶颈层,在前向传播时强制要求下游任务表示满足高斯分布;此外,还引入知识蒸馏机制来纠正反向传播中信息流方向 阅读全文
posted @ 2024-08-27 10:04 晓飞的算法工程笔记 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 通过对多样化基准的严格评估,论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理:(1)符号化和(2)基于符号或其表示的逻辑推理,发现推理阶段比符号化更擅长泛化。因此,更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化,同时使用共享的推理 阅读全文
posted @ 2024-08-27 09:40 晓飞的算法工程笔记 阅读(170) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 20 下一页