2024 年 8月随笔档案 - 晓飞的算法工程笔记

AIGC时代，仅用合成数据训练模型到底行不行？来一探究竟 | CVPR 2024

摘要：首个针对使用合成数据训练的模型在不同稳健性指标上进行详细分析的研究，展示了如SynCLIP和SynCLR等合成克隆模型，其性能在可接受的范围内接近于在真实图像上训练的对应模型。这一结论适用于所有稳健性指标，除了常见的图像损坏和OOD（域外分布）检测。另一方面，监督模型SynViT-B在除形状偏差外的阅读全文

posted @ 2024-08-30 13:39 晓飞的算法工程笔记阅读(132) 评论(0) 推荐(0) 编辑

POA：已开源，蚂蚁集团提出同时预训练多种尺寸网络的自监督范式 | ECCV 2024

摘要：论文提出一种新颖的POA自监督学习范式，通过弹性分支设计允许同时对多种尺寸的模型进行预训练。POA可以直接从预训练teacher生成不同尺寸的模型，并且这些模型可以直接用于下游任务而无需额外的预训练。这个优势显著提高了部署灵活性，并有助于预训练的模型在各种视觉任务中取得SOTA结果。来源：晓飞的算阅读全文

posted @ 2024-08-30 13:34 晓飞的算法工程笔记阅读(245) 评论(0) 推荐(0) 编辑

RFFT：数据与代码已开源，京东推出广告图生成新方法 | ECCV 2024

摘要：论文将多模态可靠反馈网络（RFNet）结合到一个循环生成图片过程中，可以增加可用的广告图片数量。为了进一步提高生产效率，利用RFNet反馈进行创新的一致条件正则化，对扩散模型进行微调（RFFT），显著增加生成图片的可用率，减少了循环生成中的尝试次数，并提供了高效的生产过程，而不牺牲视觉吸引力。论文还阅读全文

posted @ 2024-08-29 10:01 晓飞的算法工程笔记阅读(110) 评论(0) 推荐(0) 编辑

PCSR：已开源，三星提出像素级路由的超分辨率方法 | ECCV 2024

摘要：基于像素级分类器的单图像超分辨率方法（PCSR）是一种针对大图像高效超分辨率的新方法，在像素级别分配计算资源，处理不同的恢复难度，并通过更精细的粒度减少冗余计算。它还在推断过程中提供可调节性，平衡性能和计算成本而无需重新训练。此外，还提供了使用K均值聚类进行自动像素分配以及后处理技术来消除伪影。来阅读全文

posted @ 2024-08-29 09:52 晓飞的算法工程笔记阅读(419) 评论(0) 推荐(3) 编辑

CSEC：香港城市大学提出SOTA曝光矫正算法 | CVPR 2024

摘要：在光照条件不佳下捕获的图像可能同时包含过曝和欠曝。目前的方法主要集中在调整图像亮度上，这可能会加剧欠曝区域的色调失真，并且无法恢复过曝区域的准确颜色。论文提出通过学习估计和校正这种色调偏移，来增强既有过曝又有欠曝的图像。先通过基于UNet的网络推导输入图像的增亮和变暗版本的色彩特征图，然后使用伪正常阅读全文

posted @ 2024-08-28 09:54 晓飞的算法工程笔记阅读(424) 评论(0) 推荐(0) 编辑

FlexAttention：解决二次复杂度问题，将大型视觉语言模型的输入提升至1008 | ECCV 2024

摘要：\({\tt FlexAttention}\) 是一种旨在增强大型视觉语言模型的方法，通过利用动态高分辨率特征选择和分层自注意机制，使其能够有效地处理并从高分辨率图像输入中获得优势， \({\tt FlexAttention}\) 在性能和效率方面超越了现有的高分辨率方法。来源：晓飞的算法工程笔记阅读全文

posted @ 2024-08-28 09:48 晓飞的算法工程笔记阅读(40) 评论(0) 推荐(0) 编辑

Bi-MTDP：通过二值网络加速多任务密集预测，又快又提点 | CVPR 2024

摘要：论文提出二值化多任务密集预测器 Bi-MTDP，通过二值神经网络（BNNs）显著加速多任务密集预测模型，同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降，论文引入了深度信息瓶颈层，在前向传播时强制要求下游任务表示满足高斯分布；此外，还引入知识蒸馏机制来纠正反向传播中信息流方向阅读全文

posted @ 2024-08-27 10:04 晓飞的算法工程笔记阅读(76) 评论(0) 推荐(0) 编辑

One-for-All：上交大提出视觉推理的符号化与逻辑推理分离的新范式 | ECCV 2024

摘要：通过对多样化基准的严格评估，论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理：（1）符号化和（2）基于符号或其表示的逻辑推理，发现推理阶段比符号化更擅长泛化。因此，更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化，同时使用共享的推理阅读全文

posted @ 2024-08-27 09:40 晓飞的算法工程笔记阅读(211) 评论(0) 推荐(0) 编辑

EXITS：基于极值点低标注成本弱监督实例分割 | CVPR 2024

摘要：EXITS将极值点视为真实实例掩模的一部分并将它们传播以识别潜在前景和背景点，所有这些都用于训练伪标签生成器，然后由生成器给出的伪标签反过来用于最终模型的监督学习。来源：晓飞的算法工程笔记公众号论文: Extreme Point Supervised Instance Segmentation 阅读全文

posted @ 2024-08-26 13:26 晓飞的算法工程笔记阅读(92) 评论(0) 推荐(0) 编辑

Swahili-text：华中大推出非洲语言场景文本检测和识别数据集 | ICDAR 2024

摘要：论文提出了一个专门针对斯瓦希里语自然场景文本检测和识别的数据集，这在当前研究中是一个未充分开发的语言领域。数据集包括976张带标注的场景图像，可用于文本检测，以及8284张裁剪后的图像用于识别。来源：晓飞的算法工程笔记公众号论文: The First Swahili Language Scen 阅读全文

posted @ 2024-08-26 13:19 晓飞的算法工程笔记阅读(241) 评论(0) 推荐(1) 编辑

DLAFormer：微软提出多任务统一的端到端文本分析Transformer模型 | ICDAR 2024

摘要：论文提出新颖的基于Transformer的端到端方法DLAFormer，在统一的模型中集成多个文档布局分析任务，包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标，将各种DLA子任务视为关系预测问题并提出了统一标签空间方法，使得统一关系预测模块能够有效而高效地同时处理这阅读全文

posted @ 2024-08-22 09:46 晓飞的算法工程笔记阅读(88) 评论(0) 推荐(0) 编辑

SLAB：华为开源，通过线性注意力和PRepBN提升Transformer效率 | ICML 2024

摘要：论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略，以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化，以实现无损准确率，同时在推理阶段利用BatchNorm的高效优势。此外，论文设计了一种简化的线性注意力机制，其在计算成本较低的情况下达到阅读全文

posted @ 2024-08-22 09:40 晓飞的算法工程笔记阅读(169) 评论(0) 推荐(0) 编辑

BVS：多强联手，李飞飞也参与的超强仿真数据生成工具，再掀数据狂潮 | CVPR 2024

摘要：BEHAVIOR Vision Suite（BVS）是一个新型工具包，旨在系统评估和全面理解计算机视觉模型。研究人员能够在场景、对象和相机级别控制各种参数，有助于创建高度定制的数据集。来源：晓飞的算法工程笔记公众号论文: BEHAVIOR Vision Suite: Customizable 阅读全文

posted @ 2024-08-20 09:50 晓飞的算法工程笔记阅读(105) 评论(0) 推荐(0) 编辑

DMS：直接可微的网络搜索方法，最快仅需单卡10分钟 | ICML 2024

摘要：Differentiable Model Scaling（DMS）以直接、完全可微的方式对宽度和深度进行建模，是一种高效且多功能的模型缩放方法。与先前的NAS方法相比具有三个优点：1）DMS在搜索方面效率高，易于使用。2）DMS实现了高性能，可与SOTA NAS方法相媲美。3）DMS是通用的，与各种阅读全文

posted @ 2024-08-20 09:40 晓飞的算法工程笔记阅读(178) 评论(0) 推荐(0) 编辑

EfficientMod：微软出品，高效调制主干网络 | ICLR 2024

摘要：Efficient Modulation (EfficientMod) 融合了卷积和注意力机制的有利特性，同时提取空间上下文并对输入特征进行投影，然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性，而固有的调制设计理念则保证了其强大的表示能力来源：晓飞的算法工程笔记阅读全文

posted @ 2024-08-19 09:46 晓飞的算法工程笔记阅读(87) 评论(0) 推荐(0) 编辑

RealNet：从数据生成到模型训练的最新工业异常检测 | CVPR 2024

摘要：论文提出了一种创新的自监督异常检测框架RealNet，集成了三个核心组件：可控制强度的扩散异常合成（SDAS）、异常感知特征选择（AFS）和重构残差选择（RRS）。这些组件通过协同作用，使RealNet能够有效地利用大规模预训练模型来进行异常检测，同时保持计算开销在合理的低范围内。RealNet为未阅读全文

posted @ 2024-08-19 09:35 晓飞的算法工程笔记阅读(663) 评论(0) 推荐(0) 编辑

Efficient DETR：别再随机初始化了，旷视提出单解码层的高效DETR | CVPR 2021

摘要：Efficient DETR结合密集检测和稀疏集合检测的优点，利用密集先验来初始化对象容器，弥补单层解码器结构与 6 层解码器结构的差距。在MS COCO上进行的实验表明，仅 3 个编码器层和 1 个解码器层即可实现与最先进的目标检测方法竞争的性能，在CrowdHuman密集数据集上的性能也远远优于阅读全文

posted @ 2024-08-16 09:39 晓飞的算法工程笔记阅读(175) 评论(0) 推荐(0) 编辑

SMCA：港中文提出注意力图校准的DETR加速方案 | ICCV 2021

摘要：为了加速DETR收敛，论文提出了简单而有效的Spatially Modulated Co-Attention（SMCA）机制，通过在初始边界框位置给予较高的协同注意力响应值的约束来构建DETR的回归感知协同注意力。此外，将SMCA扩展为多头注意力和尺度选择注意力后，对比DETR可以实现更好的性能（1 阅读全文

posted @ 2024-08-16 09:28 晓飞的算法工程笔记阅读(205) 评论(0) 推荐(0) 编辑

TSP-Detection：CMU 提出抛弃交叉注意力的 DETR 变体 | ICCV 2021

摘要：DETR基于Transformer将目标检测视为集合预测问题，实现了最先进的性能，但需要超长的训练时间才能收敛。论文研究了DETR优化困难的原因，揭示了收敛缓慢因素主要是匈牙利损失和Transformer交叉注意机制。为了克服这些问题，论文提出了两种解决方案，即TSP-FCOS（基于Transfor 阅读全文

posted @ 2024-08-15 09:42 晓飞的算法工程笔记阅读(123) 评论(0) 推荐(0) 编辑

Deformable DETR：商汤提出可变型 DETR，提点又加速 | ICLR 2021 Oral

摘要：DETR能够消除物体检测中许多手工设计组件的需求，同时展示良好的性能。但由于注意力模块在处理图像特征图方面的限制，DETR存在收敛速度慢和特征分辨率有限的问题。为了缓解这些问题，论文提出了Deformable DETR，其注意力模块仅关注参考点周围的一小组关键采样点，通过更少的训练次数实现比DETR 阅读全文

posted @ 2024-08-15 09:34 晓飞的算法工程笔记阅读(344) 评论(0) 推荐(1) 编辑

DeiT-LT：印度科学院提出针对长尾数据的`DeiT`升级模型 | CVPR 2024

摘要：DeiT-LT为ViT在长尾数据集上的应用，通过蒸馏DIST标记引入CNN知识，以及使用分布外图像并重新加权蒸馏损失来增强对尾类的关注。此外，为了减轻过拟合，论文建议用经过SAM训练的CNN教师进行蒸馏，促使所有ViT块中DIST标记学习低秩泛化特征。经过DeiT-LT的训练方案，DIST标记成为尾阅读全文

posted @ 2024-08-14 09:55 晓飞的算法工程笔记阅读(77) 评论(0) 推荐(0) 编辑

StarNet：关于 Element-wise Multiplication 的高性能解释研究 | CVPR 2024

摘要：论文揭示了star operation（元素乘法）在无需加宽网络下，将输入映射到高维非线性特征空间的能力。基于此提出了StarNet，在紧凑的网络结构和较低的能耗下展示了令人印象深刻的性能和低延迟来源：晓飞的算法工程笔记公众号论文: Rewrite the Stars 论文地址：https:/ 阅读全文

posted @ 2024-08-14 09:47 晓飞的算法工程笔记阅读(292) 评论(0) 推荐(1) 编辑

DRM：清华提出无偏差的新类发现与定位新方法 | CVPR 2024

摘要：论文分析了现有的新类别发现和定位（NCDL）方法并确定了核心问题：目标检测器往往偏向已知的目标，忽略未知的目标。为了解决这个问题，论文提出了去偏差区域挖掘（DRM）方法，以互补的方式结合类无关RPN和类感知RPN进行目标定位，利用未标记数据的半监督对比学习来改进表征网络，以及采用简单高效的mini- 阅读全文

posted @ 2024-08-13 18:39 晓飞的算法工程笔记阅读(280) 评论(0) 推荐(1) 编辑

晓飞的算法工程笔记

08 2024 档案

公告