随笔分类 -  video object detection

摘要:文章作者来自谷歌,发表在CVPR2018上面。 摘要: 本文提出了一个视频目标检测的在线模型,用于在移动设备和边缘设备上实时运行。我们的方法将速度快的单帧目标检测器和LSTM层结合,得到一个混合循环卷积结构。此外,我们提出一个高效的Bottleneck-LSTM层,和传统LSTM相比减少了计算量。我 阅读全文
posted @ 2019-04-20 15:41 Gaaray 阅读(1305) 评论(0) 推荐(1) 编辑
摘要:摘要: 本文针对视频目标检测问题提出时空记忆网络(STMN)。它的核心是时空记忆模块,作为一种递归计算单元去建模长时间目标外观和运动信息。STMN可以用一个预训练的CNN backbone进行初始化,这对提高检测精度非常重要。本文为了建模目标运动提出匹配变换去对齐帧到帧的特征。本文的方法在VID数据 阅读全文
posted @ 2019-04-19 21:11 Gaaray 阅读(1084) 评论(0) 推荐(0) 编辑
摘要:一作来自Graz University of Technology,论文发表在CVPR2017上面。 tracklets:相邻若干帧的目标物体运动轨迹 摘要: 最近的准确率较高的视频目标检测和跟踪方法都包含了复杂的多阶段解决方案。这篇文章中我们提出了一个ConvNet结构,能够同时进行检测和跟踪,以 阅读全文
posted @ 2019-04-17 16:02 Gaaray 阅读(2121) 评论(1) 推荐(1) 编辑
摘要:文章提出了一个利用视频时序相关信息来加速视频目标检测的方法叫CaTDet。CaTDet包含了两部分,一个检测器和一个额外的基于之前检测结果的跟踪器用来预测RoI。 算法大概流程是这样的:用一个轻量的proposal网络来预测可能的存在目标的区域;用一个tracker来跟踪当前帧的检测结果中置信度高的 阅读全文
posted @ 2019-04-16 00:39 Gaaray 阅读(503) 评论(0) 推荐(0) 编辑
摘要:motivation: 之前使用flownet的方法有诸多弊端。 1.在检测框架中加入光流网络极大地增加了检测器模型的参数,无法用在移动端。 2.光流原本是描述两张图片间像素点的位移的,直接将其用在high-level的feature map上会引入人为的干扰。特别的,high-level的feat 阅读全文
posted @ 2019-04-14 11:51 Gaaray 阅读(1267) 评论(0) 推荐(0) 编辑
摘要:motivation: 作者发现对图片进行降采样有时能有助于检测精度的提升。具体来说,图片降采样能带来两方面的提升: 1)减少false positive(fp)的数量,过多地关注图片上不必要的细节会引入false positive。 2)增加true positive(tp)的数量,通过对图片进行 阅读全文
posted @ 2019-04-11 12:16 Gaaray 阅读(443) 评论(0) 推荐(0) 编辑
摘要:文章链接:https://arxiv.org/abs/1904.01784v1 简介 受人类视觉注意力系统的启发,文章提出了一个叫Patchwork的模型,利用了记忆和注意力之间的微妙的相互作用来进行高效的视频处理。 图1:a) 视频流中的每个时间步,我们的方法仅仅处理当前帧的一个小的局部窗,但由于 阅读全文
posted @ 2019-04-10 11:28 Gaaray 阅读(998) 评论(0) 推荐(0) 编辑
摘要:参考:https://mp.weixin.qq.com/s/Sq3dBuU8aY3Ug9NBZMc5lA Motivation 物体在快速运动时,当人眼所看到的影像消失后,人眼仍能继续保留其影像,约0.1-0.4秒左右的图像,这种现象被称为视觉暂留现象。人类在观看视频时,利用视觉暂留机制和记忆能力, 阅读全文
posted @ 2019-04-08 16:35 Gaaray 阅读(1373) 评论(0) 推荐(0) 编辑
摘要:motivation: 近来以桌面版GPU为计算平台的视频目标检测取得了较多成果,如DFF,FGFA等,但这些算法没法用在移动端,移动端的计算资源有限不足以运行这些算法。 本文提出了一个用于移动端的轻量化视频目标检测网络。在稀疏关键帧上运行轻量化的图片目标检测器,使用了一个非常小的轻光流网络来提取光 阅读全文
posted @ 2019-04-08 11:23 Gaaray 阅读(454) 评论(0) 推荐(0) 编辑
摘要:大雁与飞机 假设现在有这样一个测试集,测试集中的图片只由大雁和飞机两种图片组成,如下图所示: 假设你的分类系统最终的目的是:能取出测试集中所有飞机的图片,而不是大雁的图片。 现在做如下的定义: True positives : 飞机的图片被正确的识别成了飞机。 True negatives: 大雁的 阅读全文
posted @ 2019-03-31 16:29 Gaaray 阅读(6996) 评论(3) 推荐(2) 编辑
摘要:来自清华的一篇文章,发表在ECCV2018上,是对FGFA做的改进。 针对R-FCN这一目标检测算法做出的专有改进,目前看来这个方法只适合用在R-FCN,无法迁移到其他目标检测算法,如faster rcnn、SSD等。 具体的做法是这样的,FGFA就是图中左半部分,分别提取相邻帧的图片特征,并用光流 阅读全文
posted @ 2019-03-24 16:36 Gaaray 阅读(637) 评论(0) 推荐(0) 编辑
摘要:发表在ECCV2018上,提出一种用可变形卷积做特征对齐的方法。 与FGFA十分相似,思想都是单帧不够,多帧来凑,利用相邻帧的特征来对当前帧进行增强,以此来达到更好的检测效果。不同点在于FGFA是利用光流来对两张图片的特征进行对齐, 这篇文章采用的是可变形卷积来做特征对齐。 首先将当前帧和相邻帧经过 阅读全文
posted @ 2019-03-24 16:27 Gaaray 阅读(980) 评论(0) 推荐(0) 编辑
摘要:来自MSRA视觉计算组,发表在CVPR2018上,对DFF和FGFA的改进。 motivation 在DFF和FGFA的基础上提出三个改进 对速度和精度进行权衡 在DFF和FGFA的基础上提出三个改进 对速度和精度进行权衡 DFF和FGFA分别专注于提高速度和精度,这篇文章尝试把两者的优势结合起来, 阅读全文
posted @ 2019-03-24 16:05 Gaaray 阅读(585) 评论(0) 推荐(0) 编辑
摘要:来自MSRA视觉计算组,发表在ICCV2017上,提出了一个通过特征聚合来增强特征的方法。 motivation 视频中的退化现象很严重 通过聚合多帧的特征来对每一帧特征进行增强 用光流传播特征 视频中的退化现象很严重 通过聚合多帧的特征来对每一帧特征进行增强 用光流传播特征 视频目标检测中,存在图 阅读全文
posted @ 2019-03-24 15:37 Gaaray 阅读(784) 评论(0) 推荐(0) 编辑
摘要:来自MSRA视觉计算组,发表在CVPR2017上。这篇文章提出了一个结合光流的快速视频目标检测和视频语义分割方法。 motivation 在视频流的每一帧上用CNN计算特征太慢了。 两个相邻帧有相似的feature map 结合光流将特征进行传播 在视频流的每一帧上用CNN计算特征太慢了。 两个相邻 阅读全文
posted @ 2019-03-24 15:12 Gaaray 阅读(2646) 评论(0) 推荐(0) 编辑
摘要:转自:https://blog.csdn.net/WZZ18191171661/article/details/79481135 论文题目:R-FCN: Object Detection via Region-based Fully Convolutional Networks 论文链接:论文链接 阅读全文
posted @ 2019-02-27 12:11 Gaaray 编辑
摘要:转自:https://blog.csdn.net/weixin_42164269/article/details/80613782 摘要 卷积神经网络(CNNs)最近在各种计算机视觉任务中非常成功,特别是那些与识别有关的任务。光流量估计并不在CNN能够成功完成的任务当中。本文提出了一种能够将光流估计 阅读全文
posted @ 2019-02-16 17:13 Gaaray 阅读(634) 评论(0) 推荐(0) 编辑
摘要:转自: 双线性插值(Bilinear Interpolation) 最近用到插值算法,使用三次样条插值时仿真速度太慢,于是采用算法简单的线性插值。本篇主要介绍一下双线性插值的实现方法。 1. 线性插值 已知坐标 (x0, y0) 与 (x1, y1),要得到 [x0, x1] 区间内某一位置 x 在 阅读全文
posted @ 2019-02-15 20:58 Gaaray 阅读(331) 评论(0) 推荐(0) 编辑