View Adaptive Neural Networks for High Performance Skeleton-based Human Action Recognition
给每一帧(每一个序列)生成一个最佳的相机位置
预处理:
帧级别预处理会丢失信息
序列级预处理对所有帧执行与第一帧相同的操作,对于初始位置和朝向不敏感。定义的身体平面有可能不是很合适。
每一种级别都有两种操作,平移和旋转。
输入默认的预处理是序列级平移,将坐标原点放在第一帧的中心节点上。
坐标转换
上面是逆时针方向
VA-CNN
节点映射成图片
这里发现回归序列级别的参数更好,因为比起帧级别增加了泛化性。且容易保持一个序列的一致性。
数据增强中采用视角变换(旋转xyz轴)
实验结果:
序列级比帧级效果好
cnn比rnn效果好10个点
即便是普通的平移预处理,cnn baseline也能到达87.5
视角变换模块对于一些类有副作用