【阅读笔记】:2020-TMM-A Cuboid CNN Model With an Attention Mechanism for skeleton-based action recognition

问题:

       基于骨架的动作识别,CNN提特征。

研究现状总结:

       虽然基于手工特征的动作识别方法的性能通常非常好,但是这些方法具有固有的局限性,尤其是特征很浅。深度学习提供了一种获得高容量表示的方法。例如,递归神经网络(RNN) 和长短期记忆(LSTM)适用于通过有效提取时间信息和在不同关节处找到关键信息来分析连续数据,以获得可接受的识别。然而,在训练数据不足的情况下,这些方法倾向于过度强调时间序列,导致过度拟合卷积神经网络(CNNs)也被用于处理动作序列,并代表了分类和识别的优秀工具。与神经网络相比,使用神经网络的一个重要挑战是如何组织顺序数据,以便自然输入到模型中。在大多数基于骨架的动作识别方法中,骨架数据被转换成图像,但是这种转换可能导致空间信息的损失,并且通常复杂的计算限制了它们的实际应用。

       我们注意到大多数现有的方法直接采用不同关节点的绝对距离表示特征,忽略了方向信息。特别地,当将这些距离转换成图像时,关节的空间坐标丢失,并且得到的图像可能呈现空间分散的结构。这可能会在类似的动作之间引入歧义,例如“上举”和“前举”。现有方法不能完全解决这些空间分散的结构。这导致动作最相关的关节缺乏关注,从而降低了所提取的CNN特征的区别性。

方法:

        为了解决上述基于骨架的方法的内在局限性,这里我们提出了一个长方体的CNN模型,它具有一个集成的注意机制。首先,考虑到一个动作是在三维空间中执行的,我们在计算距离特征时保留了所有关节的方向信息。这样,可以从方向信息中提取相似动作的区别特征。其次,也许更重要的是,身体关节是局部相关的。因此,为了获得结构良好的图像表示,需要根据一定的标准排列对应于不同关节对的位移向量(具有方向信息的距离)。为此,我们开发了一种长方体排列策略,通过该策略,相邻身体关节的位移矢量在空间上集中在结果图像中。此外,现有的基于骨架的动作识别方法大多集中在单个对象上,很少考虑多个对象。本文将长方体排列策略引入两人动作识别的神经网络中。

The displacements 
between Joint i and 
Joint 
t-th frame 
Joint 1 
Joint 2 
Joint 3 
Joint N! 
Base 
Netwo 
Classification 
-iiiiii 
Displacements axis 
Cuboid Representation 
Attention model 
Fig. 1. The flowchart ofthe proposed method. The representation ofeachframe is organized according to the cuboid feature arranging strategy. By concatenating 
all frames, we obtain a cuboid action representation of dimension N x T x 3 N. Such a representation is fed into a CNN model with an attention mechanism.

Cuboid Feature 
Displacements 
1st Frame 
2nd Frame 
T-th Frame 
Cuboid Feature 
1st target 
N-th target 
Displacements 
(a) 
L) 
Cuboid Representation 
(b)

Representation 
Base Network 
Fig. 4. 
Feature Extraction Module: 
Attention Module 
The cuboid CNN with attention.

创新点:

  • 我们提出了一种新颖的长方体排列策略来描述骨骼数据。具体来说,位移向量用于描述任意两个关节之间的相对位置,从而保留方向信息。然后通过我们新颖的排列策略产生一个长方体表示,产生结构良好的输入动作数据到CNN模型。长方体表示也可以用于两人动作识别数据集。
  • 增强身体关节和动作类别之间的相关性。由此产生的特征提高了动作识别的准确性。当前基于骨架的方法没有考虑这个因素。

结论:

      提出了一种新的基于骨架的动作识别方法,该方法融合了长方体特征排列策略和注意机制。这些技巧的灵感来源于一个事实,即一个动作的类别是由局部关节运动决定的。与移动关节相关的特征被优先化,而其他特征被抑制。注意机制可以自动学习相关关节的特征,并赋予它们更大的权重。在流行数据集上的大量实验证明了我们的方法相对于当前技术水平的优越性。最后,与骨架数据相比,RGB数据在现实中更容易获得,因此未来的工作将集中在基于RGB的动作识别上。

摘要:

The introduction of depth sensors such as Microsoft Kinect have driven research in human action recognition. Human skeletal data collected from depth sensors convey a significant amount of information for action recognition. While there has been considerable progress in action recognition, most existing skeleton-based approaches neglect the fact that not all human body parts move during many actions, and they fail to consider the ordinal positions of body joints. Here, and motivated by the fact that an action’s category is determined by local joint movements, we propose a cuboid model for skeleton-based action recognition. Specifically, a cuboid arranging strategy is developed to organize the pairwise displacements between all body joints to obtain a cuboid action representation. Such a representation is well structured and allows deep CNN models to focus analyses on actions. Moreover, an attention mechanism is exploited in the deep model, such that the most relevant features are extracted. Extensive experiments on our new Yunnan University-Chinese Academy of Sciences-Multimodal Human Action Dataset (CASYNU MHAD), the NTU RGB+D dataset, the UTD-MHAD dataset, and the UTKinect-Action3D dataset demonstrate the effectiveness of our method compared to the current state-of-the-art.

posted @ 2020-11-30 19:03  no_forget  阅读(193)  评论(0编辑  收藏  举报