Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training
2022-03-22 14:22:12
Paper: https://ojs.aaai.org/index.php/AAAI/article/download/6795/6649
Code: https://github.com/microsoft/Unicoder
如图 1 所示, 作者从给定的图像中,先用 faster RCNN 抽取 proposal,得到对应的特征和 label。针对这些输入,作者加入了位置编码,然后输入到 Transformer encoder 中,进行特征提取。在预训练阶段,作者采用了三个损失函数,即:Masked Language Modeling(MLM), Masked Object Classification(MOC) and Visual-linguistic Matching(VLM)。感觉也是主流的预训练目标。
在下游任务上,作者采用了 Image-Text Retrieval,Zero-shot Image-Text Retrieval,Visual Commonsense Reasoning。
Stay Hungry,Stay Foolish ...
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
2020-03-22 Attention is All you need
2020-03-22 Normalized and Geometry-Aware Self-Attention Network for Image Captioning
2019-03-22 (转) NAS(神经结构搜索)综述
2017-03-22 (zhuan) Using convolutional neural nets to detect facial keypoints tutorial
2017-03-22 Awesome Torch
2017-03-22 Learning to Track at 100 FPS with Deep Regression Networks
2016-03-22 纯spl选择样本,代码备份 matlab