摘要: ​ 前言 本文介绍了一个端到端的用于视觉跟踪的transformer模型,它能够捕获视频序列中空间和时间信息的全局特征依赖关系。在五个具有挑战性的短期和长期基准上实现了SOTA性能,具有实时性,比Siam R-CNN快6倍。 本文来自公众号CV技术指南的论文分享系列 关注公众号CV技术指南 ,专注于 阅读全文
posted @ 2021-12-10 21:11 CV技术指南(公众号) 阅读(720) 评论(0) 推荐(0) 编辑