基于Transformer模型的人体3D姿态比对算法研究
基于Transformer模型的人体3D姿态比对算法研究
大方向
基于深度学习的人体骨骼关键点检测及其在动作训练中的应用。主要工作为:人体骨骼关键点检测网络构建、动作对齐以及基于关键点检测的动作训练系统实现。
人体骨骼关键点检测网络构建
人体骨骼关键点检测分为二维人体骨骼关键点检测和三维人体骨骼关键点检测。
不需要重点关注,这是其他人的任务。
其处理后会得到一系列21个(x,y,z)骨骼点.
动作对齐
在对不同的视频段进行动作匹配时,待匹配的视频段之间的帧长度往往并不一致,另外,需要在进行匹配之前,先找出两端动作视频在逻辑层面的运动语义对应关系。
时序对齐算法:
- 动态时间规整算法(DTW)
- TA2N:Two-Stage Action Alignment Network for Few-Shot Action Recognition
动态时间规整算法(DTW)
该算法是最常见的时序对齐算法,主要就是用来寻找两段时间序列之间的最佳对应路径。但是DTW需要对匹配视频的所有帧进行遍历,计算量很大,因此很难短时间内找到一个累计最小的距离路径。
TA2N
暂无笔记
基于关键点检测的动作训练系统完成
参考流程图如下:
相似性度量方法
常见的计算距离和相似度的方法有:欧几里德距离、闵可夫斯基距离、曼哈顿距离、马氏距离、余弦相似度、切比雪夫距离、皮尔逊相关系数、汉明距离、动态时间规划等。
欧几里德距离:
指的是空间中两个点之间的直线距离。
扩展到n维:
余弦相似度:
余弦相似度计算的是两个向量在空间中的夹角大小,取值范围是[-1, 1]。
马氏距离:
马氏距离(Mahalanobis Distance)即计算数据间的协方差距离。它综合了样本的全部特
性之间的信息并且是尺度无关的(scale-invariant),即独立于测量尺度。
思路一
基于关键帧和分段动态时间规整的动作对齐
先对采集的动作视频进行关键帧的提取,然后根据提取的关键帧与模板动作帧之间的帧数关系分段使用DTW算法,将很好的提升视频帧中的动作对齐效率。
基于内容聚类的关键帧提取算法
关键帧提取算法选择了基于内容聚类的关键帧提取算法。