上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页
摘要: \({\tt FlexAttention}\) 是一种旨在增强大型视觉语言模型的方法,通过利用动态高分辨率特征选择和分层自注意机制,使其能够有效地处理并从高分辨率图像输入中获得优势, \({\tt FlexAttention}\) 在性能和效率方面超越了现有的高分辨率方法。 来源:晓飞的算法工程笔记 阅读全文
posted @ 2024-08-28 09:48 晓飞的算法工程笔记 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 论文提出二值化多任务密集预测器 Bi-MTDP,通过二值神经网络(BNNs)显著加速多任务密集预测模型,同时保持甚至提高模型性能。为了避免信息严重退化而导致二值化带来性能下降,论文引入了深度信息瓶颈层,在前向传播时强制要求下游任务表示满足高斯分布;此外,还引入知识蒸馏机制来纠正反向传播中信息流方向 阅读全文
posted @ 2024-08-27 10:04 晓飞的算法工程笔记 阅读(72) 评论(0) 推荐(0) 编辑
摘要: 通过对多样化基准的严格评估,论文展示了现有特定方法在实现跨领域推理以及其偏向于数据偏差拟合方面的缺陷。从两阶段的视角重新审视视觉推理:(1)符号化和(2)基于符号或其表示的逻辑推理,发现推理阶段比符号化更擅长泛化。因此,更高效的做法是通过为不同数据领域使用分离的编码器来实现符号化,同时使用共享的推理 阅读全文
posted @ 2024-08-27 09:40 晓飞的算法工程笔记 阅读(206) 评论(0) 推荐(0) 编辑
摘要: EXITS将极值点视为真实实例掩模的一部分并将它们传播以识别潜在前景和背景点,所有这些都用于训练伪标签生成器,然后由生成器给出的伪标签反过来用于最终模型的监督学习。 来源:晓飞的算法工程笔记 公众号 论文: Extreme Point Supervised Instance Segmentation 阅读全文
posted @ 2024-08-26 13:26 晓飞的算法工程笔记 阅读(74) 评论(0) 推荐(0) 编辑
摘要: 论文提出了一个专门针对斯瓦希里语自然场景文本检测和识别的数据集,这在当前研究中是一个未充分开发的语言领域。数据集包括976张带标注的场景图像,可用于文本检测,以及8284张裁剪后的图像用于识别。 来源:晓飞的算法工程笔记 公众号 论文: The First Swahili Language Scen 阅读全文
posted @ 2024-08-26 13:19 晓飞的算法工程笔记 阅读(237) 评论(0) 推荐(1) 编辑
摘要: 论文提出新颖的基于Transformer的端到端方法DLAFormer,在统一的模型中集成多个文档布局分析任务,包括图形页面对象检测、文本区域检测、逻辑角色分类和阅读顺序预测。为了实现这一目标,将各种DLA子任务视为关系预测问题并提出了统一标签空间方法,使得统一关系预测模块能够有效而高效地同时处理这 阅读全文
posted @ 2024-08-22 09:46 晓飞的算法工程笔记 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 论文提出了包括渐进重参数化批归一化和简化线性注意力在内的新策略,以获取高效的Transformer架构。在训练过程中逐步将LayerNorm替换为重参数化批归一化,以实现无损准确率,同时在推理阶段利用BatchNorm的高效优势。此外,论文设计了一种简化的线性注意力机制,其在计算成本较低的情况下达到 阅读全文
posted @ 2024-08-22 09:40 晓飞的算法工程笔记 阅读(158) 评论(0) 推荐(0) 编辑
摘要: BEHAVIOR Vision Suite(BVS)是一个新型工具包,旨在系统评估和全面理解计算机视觉模型。研究人员能够在场景、对象和相机级别控制各种参数,有助于创建高度定制的数据集。 来源:晓飞的算法工程笔记 公众号 论文: BEHAVIOR Vision Suite: Customizable 阅读全文
posted @ 2024-08-20 09:50 晓飞的算法工程笔记 阅读(90) 评论(0) 推荐(0) 编辑
摘要: Differentiable Model Scaling(DMS)以直接、完全可微的方式对宽度和深度进行建模,是一种高效且多功能的模型缩放方法。与先前的NAS方法相比具有三个优点:1)DMS在搜索方面效率高,易于使用。2)DMS实现了高性能,可与SOTA NAS方法相媲美。3)DMS是通用的,与各种 阅读全文
posted @ 2024-08-20 09:40 晓飞的算法工程笔记 阅读(161) 评论(0) 推荐(0) 编辑
摘要: Efficient Modulation (EfficientMod) 融合了卷积和注意力机制的有利特性,同时提取空间上下文并对输入特征进行投影,然后使用简单的逐元素乘法将其融合在一起。EfficientMod的设计保证了高效性,而固有的调制设计理念则保证了其强大的表示能力来源:晓飞的算法工程笔记 阅读全文
posted @ 2024-08-19 09:46 晓飞的算法工程笔记 阅读(73) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 24 下一页