1 2 3 4 5 ··· 20 下一页
摘要: Vision Transformer(ViT) 架构传统上采用基于网格的方法进行标记化,而不考虑图像的语义内容。论文提出了一种模块化的超像素非规则标记化策略,该策略将标记化和特征提取解耦,与当前将两者视为不可分割整体的方法形成了对比。通过使用在线内容感知标记化以及尺度和形状不变的位置嵌入,与基于图像 阅读全文
posted @ 2024-09-12 12:10 晓飞的算法工程笔记 阅读(46) 评论(0) 推荐(0) 编辑
摘要: 标记压缩通过减少冗余标记的数量(例如,修剪不重要的标记或合并相似的标记)来加快视觉变换器(ViTs)的训练和推理。然而,当这些方法应用于下游任务时,如果训练和推理阶段的压缩程度不匹配,会导致显著的性能下降,这限制了标记压缩在现成训练模型上的应用。因此提出了标记补偿器(ToCom),以解耦两个阶段之间 阅读全文
posted @ 2024-09-11 14:59 晓飞的算法工程笔记 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 在许多实际应用中,相对于反映类别之间微妙差异的细粒度标签,我们更容易获取粗粒度标签。然而,现有方法无法利用粗标签以无监督的方式推断细粒度标签。为了填补这个空白,论文提出了FALCON,一种从粗粒度标记数据中无需细粒度级别的监督就能发现细粒度类别的方法。FALCON同时推断未知的细粒度类别和粗粒度类别 阅读全文
posted @ 2024-09-10 12:32 晓飞的算法工程笔记 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 动态卷积学习n个静态卷积核的线性混合,加权使用它们输入相关的注意力,表现出比普通卷积更优越的性能。然而,它将卷积参数的数量增加了n倍,因此并不是参数高效的。这导致不能探索n>100的设置(比典型设置n<10大一个数量级),推动动态卷积性能边界提升的同时享受参数的高效性。为此,论文提出了KernelW 阅读全文
posted @ 2024-09-09 12:31 晓飞的算法工程笔记 阅读(122) 评论(0) 推荐(1) 编辑
摘要: 大规模图像-文本预训练模型实现了零样本分类,并在不同数据分布下提供了一致的准确性。然而,这些模型在下游任务中通常需要微调优化,这会降低对于超出分布范围的数据的泛化能力,并需要大量的计算资源。论文提出新颖的Robust Adapter(R-Adapter),可以在微调零样本模型用于下游任务的同时解决这 阅读全文
posted @ 2024-09-06 12:13 晓飞的算法工程笔记 阅读(193) 评论(0) 推荐(0) 编辑
摘要: 论文提出了第一个端到端的半监督伪装目标检测模型CamoTeacher。为了解决半监督伪装目标检测中伪标签中存在的大量噪声问题,包括局部噪声和全局噪声,引入了一种名为双旋转一致性学习(DRCL)的新方法,包括像素级一致性学习(PCL)和实例级一致性学习(ICL)。DRCL帮助模型缓解噪音问题,有效利用 阅读全文
posted @ 2024-09-05 09:31 晓飞的算法工程笔记 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 即插即用的方法OVMR将新类别的多模态线索嵌入到VLM中,以增强其在开放词汇识别中的能力。它最初利用多模态分类器生成模块将示例图像嵌入到视觉标记中,然后通过推断它们与语言编码器的上下文关系来自适应地融合多模态线索。为了减轻低质量模态的负面影响,通过一个无参数融合模块根据每个类别对这些分类器的特定偏好 阅读全文
posted @ 2024-09-04 09:46 晓飞的算法工程笔记 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 分形几何是一个数学分支,主要应用于作图方面。一般来说,分形经过无数次递归迭代后的结果。比如取一条线段,抹去中间的三分之一,会得到长度是原三分之一长的两条线段,中间隔着相同长度的间隙。然后重复这个动作,直到所有的线段都被抹掉,就将会得到被以固定模式出现的间隙隔开的无限多的点,这就是康托尔集合。 目前有 阅读全文
posted @ 2024-09-04 09:40 晓飞的算法工程笔记 阅读(203) 评论(0) 推荐(2) 编辑
摘要: 数据集MovieSum包括2200部电影剧本及其维基百科情节摘要,用于电影剧本的抽象摘要。该数据集手动格式化电影剧本以表示它们的结构元素。与现有数据集相比,MovieSum具有几个独特的特点:(1) 它包括电影剧本,这些剧本比电视剧本更长。(2) 它是先前电影剧本数据集的两倍大小。(3) 它提供了带 阅读全文
posted @ 2024-09-03 10:07 晓飞的算法工程笔记 阅读(22) 评论(0) 推荐(0) 编辑
摘要: 即插即用的PlugIR通过LLM提问者和用户之间的对话逐步改进文本查询以进行图像检索,然后利用LLM将对话转换为检索模型更易理解的格式(一句话)。首先,通过重新构造对话形式上下文消除了在现有视觉对话数据上微调检索模型的必要性,从而使任意黑盒模型都可以使用。其次,构建了LLM问答者根据当前情境中检索候 阅读全文
posted @ 2024-09-03 09:55 晓飞的算法工程笔记 阅读(163) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 20 下一页