随笔分类 - Action Recognition and Detection
摘要:图解 RoIAlign 以及在 PyTorch 中的使用(含代码示例)_虾米小馄饨的博客-CSDN博客 如何在你自己的代码中使用ROI Pool和ROI Align(PyTorch 1.0)_ronghuaiyang的博客-CSDN博客
阅读全文
摘要:本文内容全部摘自:知乎AVA Actions Dataset 详解 。推荐看原文。 1.1. 基本情况 数据集类别:Spatio-Temporal Action Detection,即时空行为检测。 举个例子,就是检测出视频中所有人的位置以及对应的行为类别。 数据集形式(这里是简单介绍,后面会有更详
阅读全文
摘要:检测和分类不同,检测过程中,图片处理以后,bbox往往也需要同步变换。 [1] 知乎:目标检测-数据增强(Data Augmentation) (推荐,但要注意代码中的个别错误) [2] CSDN: 目标检测中的数据增强,包括bbox的变换 (写的还可以) [3] 知乎:一种目标检测任务中图像-标注
阅读全文
摘要:Pose Estimation:DensePose
阅读全文
摘要:基本信息 NW-UCLA骨架数据 raw data下载链接。 每个视频都只有一个人。人身上设置了20个节点,如下图所示: NW-UCLA骨架数据总共1484个样本,平均时长39.4帧,最长的有201帧,最短的只有1帧(a02_s09_e04_v03.json和a02_s09_e04_v02.json
阅读全文
摘要:信息 链接:http://mocap.cs.cmu.edu/ Wentao Zhu等人的2016 AAAI论文: We have categorized the CMU motion capture dataset into 45 classes for the purpose of skeleto
阅读全文
摘要:一. NTU论文中的预处理方法 We translate them to the body coordinate system with its origin on the “middle of the spine” joint (number 2 in Figure 1), followed by
阅读全文
摘要:NTU RGB+D数据集链接,GitHub链接 拍摄相机的机位示意图: NTU60每个视频长度(帧数)的统计情况: 总共约56880个视频,最长的是300帧,最短的是32帧,平均长度82.9帧; 长度大于50帧的视频大约37000个,长度大于60帧的视频大约30000个,长度大于70帧的约23000
阅读全文
摘要:一. 博客文章和视频 blibli视频:Temporal Convolutional Networks (TCN) (推荐) 简书:TCN(Temporal Convolutional Network) 个人博客:Temporal Convolutional Network (TCN与Trellis
阅读全文
摘要:任务 action recognition motivation Both recurrent and convolutional operations are neighborhood-based local operations either in space or time; hence lo
阅读全文
摘要:任务 action recognition 对骨架节点坐标进行视角不变预处理 We align the action sequences by implementing a view-invariant transformation which transforms keypoints coordi
阅读全文
摘要:任务 action detection:先切割视频,然后聚类。 motivation 利用单个视频中,各个子动作之间存在时间顺序关系,比如在做咖啡的视频中,把咖啡倒进杯子里一般会发生在搅拌咖啡之前。 基本流程 这里只介绍基础版本。 给一个视频数据集,每个视频都包含多个子动作,但所有视频主题相同。从中
阅读全文
摘要:任务 action recognition 基本流程 把一个骨架视频中节点的各个坐标变成一幅图像,对图像用卷积和池化训练,如下图,图像的每一列表示一帧中各节点的坐标,不同列表示不同帧的信息。 创新点及为什么work 创新点: 把时序骨架节点坐标表示成图像,把时序动态特性转换为空间结构 提出用这些特殊
阅读全文
摘要:PKU-MMD数据集简介 官网链接:https://www.icst.pku.edu.cn/struct/Projects/PKUMMD.html, github链接 The dataset is captured via the Kinect v2 sensors from multiple vi
阅读全文
摘要:个人主页及文章代码 Hongsong Wang, 王洪松 Beyond Joints: Learning Representations from Primitive Geometries for Skeleton-based Action Recognition and Detection, co
阅读全文
摘要:Weizmann Dataset 摘自 2016-Review of Action Recognition and Detection Methods 【这篇综述里有较全面的数据集介绍】 The Weizman dataset was recorded by static camera with c
阅读全文

浙公网安备 33010602011771号