Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

2021-07-20 08:58:37

 

Paper: cvpr2021 

Code: https://github.com/google-research-datasets/conceptual-12m 

 

1. Background and Motivation

当前 vision-language 的预训练模型大行其道,如何获取海量的 image-language 数据对成了一个棘手的问题。当前算法一般采用多个公共数据集构成几百万级别的语料库。但是这些数据,作者认为还不够,无法较好的学习长尾视觉概念。通过放宽过滤网上图像文本数据的条件,使得最终收获的图像更多,达到更高的召回率。作者给出的案例如下所示:

此外,作者在该数据集上进行了产生式和匹配任务的学习。如下图所示,一个是 image captioning,另外一个是图像文本匹配。并在多个下游任务上进行了实验,如表格2所示。

 

 

2. Input Representation and Results

作者采用了 graph-RISE 的方法来提取整张图像的特征,在 visual Genome 上训练 faster RCNN,骨干网络为 ResNet101。现在 JFT 数据集上进行训练,然后在 ImageNet 上进行微调。选择前 16个 box 及其特征。利用 Google 的 API 算法,预测得到 16 个图像标签,将其当做文本输入。这些全局,局部,和标签特征,一起被当做是一个 1+16+16 的向量,作为模型的底层特征。如下所示,预训练+微调的结果,得到了大幅度的提升:

 

 

 

 

 

  

==

posted @   AHU-WangXiao  阅读(383)  评论(0编辑  收藏  举报
编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
历史上的今天:
2017-07-20 How to transform the day time images to night time ? A series of paper review and some thinkings about this point.
2017-07-20 (zhuan) 资源|TensorFlow初学者必须了解的55个经典案例
2017-07-20 (zhuan) 自然语言处理中的Attention Model:是什么及为什么
2016-07-20 (转)word2vec前世今生
2016-07-20 论文笔记之:Clustering-Based Joint Feature Selection for Semantic Attribute Prediction
点击右上角即可分享
微信分享提示