Vision and Language - 随笔分类 - AHU-WangXiao

RegionCLIP: Region-based Language-Image Pretraining

该文被密码保护。

posted @ 2021-12-19 19:16 AHU-WangXiao 阅读(0) 评论(0) 推荐(0)

Capsule-based Object Tracking with Natural Language Specification

摘要：Capsule-based Object Tracking with Natural Language Specification 2021-12-18 19:28:39 Paper: https://dl.acm.org/doi/abs/10.1145/3474085.3475349 1. Bac 阅读全文

posted @ 2021-12-18 19:31 AHU-WangXiao 阅读(249) 评论(0) 推荐(0)

Grounding-Tracking-Integration

摘要：Grounding-Tracking-Integration2020-05-19 11:00:57 Paper: https://arxiv.org/pdf/1912.06316 本文提出一种 tracking-by-language 的算法，来根据文本描述进行目标跟踪。思路比较直观，将该任务分为三阅读全文

posted @ 2020-05-19 11:21 AHU-WangXiao 阅读(618) 评论(0) 推荐(0)

What's new for Transformers at the ICLR 2020 Conference?

摘要：What’s new for Transformers at the ICLR 2020 Conference? 2020-05-07 10:51:22 Source: https://towardsdatascience.com/whats-new-for-transformers-at-the- 阅读全文

posted @ 2020-05-07 10:53 AHU-WangXiao 阅读(284) 评论(0) 推荐(0)

Video Object Grounding using Semantic Roles in Language Description

摘要：Video Object Grounding using Semantic Roles in Language Description 2020-03-25 17:44:59 Paper：https://arxiv.org/pdf/2003.10606.pdf Code: https://githu 阅读全文

posted @ 2020-03-25 17:46 AHU-WangXiao 阅读(632) 评论(0) 推荐(0)

Attention is All you need

摘要：Attention is All you need 2020-03-22 00:29:11 Paper: https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf Doc: https://huggingface.co/trans 阅读全文

posted @ 2020-03-22 00:30 AHU-WangXiao 阅读(853) 评论(0) 推荐(0)

Normalized and Geometry-Aware Self-Attention Network for Image Captioning

该文被密码保护。

posted @ 2020-03-22 00:23 AHU-WangXiao 阅读(0) 评论(0) 推荐(0)

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

摘要：ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 2020-03-12 23:10:53 Paper: NeurIPS 2019 Code: https:/ 阅读全文

posted @ 2020-03-12 23:14 AHU-WangXiao 阅读(2976) 评论(0) 推荐(1)

Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video

摘要：Weakly-Supervised Spatio-Temporally Grounding Natural Sentence in Video 2020-03-08 14:29:35 Paper: https://arxiv.org/pdf/1906.02549.pdf Code: https:// 阅读全文

posted @ 2020-03-08 14:31 AHU-WangXiao 阅读(675) 评论(0) 推荐(0)

Visual Semantic Reasoning for Image-Text Matching

摘要：Visual Semantic Reasoning for Image-Text Matching 2020-03-06 15:17:02 Paper: https://arxiv.org/pdf/1909.02701.pdf Code: https://github.com/KunpengLi19 阅读全文

posted @ 2020-03-06 23:22 AHU-WangXiao 阅读(1852) 评论(0) 推荐(0)

Stacked Cross Attention for Image-Text Matching

摘要：Stacked Cross Attention for Image-Text Matching 2020-03-06 15:13:08 Paper: https://arxiv.org/pdf/1803.08024.pdf Code: https://github.com/kuanghuei/SCA 阅读全文

posted @ 2020-03-06 23:15 AHU-WangXiao 阅读(4495) 评论(0) 推荐(0)

Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

该文被密码保护。

posted @ 2020-03-03 11:46 AHU-WangXiao 阅读(0) 评论(0) 推荐(0)

Zero-Shot Grounding of Objects from Natural Language Queries

该文被密码保护。

posted @ 2019-11-01 12:51 AHU-WangXiao 阅读(0) 评论(0) 推荐(0)

Cross-Modal Self-Attention Network for Referring Image Segmentation

该文被密码保护。

posted @ 2019-09-18 20:56 AHU-WangXiao 阅读(4) 评论(0) 推荐(0)

Learning Conditioned Graph Structures for Interpretable Visual Question Answering

摘要：Learning Conditioned Graph Structures for Interpretable Visual Question Answering 2019-05-29 00:29:43 Paper：http://papers.nips.cc/paper/8054-learning- 阅读全文

posted @ 2019-05-29 00:32 AHU-WangXiao 阅读(788) 评论(0) 推荐(0)

论文笔记：Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association

摘要：Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association2018-09-29 19:36:43 Paper：http://opena 阅读全文

posted @ 2018-09-29 19:39 AHU-WangXiao 阅读(900) 评论(2) 推荐(0)

The Blog of Xiao Wang

Associate Professor, School of Computer Science and Technology, Anhui University, Email: xiaowang@ahu.edu.cn

随笔分类 - Vision and Language

公告