特征选择
最近的工作涉及可穿戴传感器系统的原型设计,构建人类活动数据集,以及开发模式识别和机器学习算法以模拟和识别人类活动。在本文中,我们专注于提高人类活动分类性能的特征选择和模式识别算法。众所周知,高质量的特征对于提高任何模式识别系统的分类精度至关重要。在人类活动识别中,通常使用通过机械运动测量计算的平均值,方差,相关性和FFT系数等特征[3]。为了执行分类,一个天真的想法是将所有可用特征汇集到一个用作分类器输入的向量中。这里的缺点是某些特征可能是不相关的或冗余的,并且不提供新信息来提高分类准确性。某些功能甚至可能会混淆分类,而不是帮助区分各种活动。更糟糕的是,由于“维数灾难”,当没有足够的训练数据来可靠地学习活动模型的所有参数时,性能可能会随着更多功能的增加而急剧下降[4]。因此,为了获得最佳的分类性能,特征向量的维度应该尽可能小,只保留最显着和互补的特征。此外,保持较小的维度可以降低计算成本,使得识别算法可以在诸如移动电话的轻便可穿戴设备上实现和运行。用于识别模式识别中的重要特征和降低维度的两种主要技术是:(1)基于原始提取特征集的变换或组合创建新特征的特征变换; (2)特征选择选择原始提取特征集的最佳子集[5]。它们都被用于可穿戴传感器社区,用于识别各种人类活动。一种常见的策略是应用特征转换或特征选择,以便为要识别的整组活动获得固定的特征集。例如,在[6]中,使用基于相关的特征选择方法来选择特征的子集。当使用选择的前八个特征对六种基本人类活动进行分类时,实现了87%的分类准确度。在[7]中,研究人员通过使用顺序反向消除方法将能量识别为所有五个可用特征中最不重要的特征。在[8]中,作者应用了三种特征选择方法:Relief-F,Simba和mRMR,以评估特征在区分15种不同活动中的相关性。所有这三种方法都达到了相似的性能另一种策略假设不同的活动可能以不同的特征集为特征。在[9]中,通过进行聚类分析,Huynh等人。表明通过分别为每个活动选择特征和窗口长度可以改善分类性能。莱斯特等人。在[10]中也证明了特征的有用性取决于要推断的特定活动。他们应用了修改版本的AdaBoost [11]来选择前50个特征,然后根据每个活动的选定特征学习一组有辨别力的静态分类器。他们发现所选择的特征对于不同的活动是不同的。在本文中,我们专注于基于特征选择技术的特征设计和评估。使用特征选择的基本原理是所选特征保留其原始含义,我们认为这对于更好地理解人类活动非常重要。我们的目标是确定最重要的功能,以识别各种人类活动。这里列出了这项工作的贡献:我们首先根据人体运动的物理参数设计一组新的特征(称为物理特征)。我们希望这些特征比常用的统计特征(如均值和方差)更准确,更简洁地表示运动。然后,我们在单层特征选择和分类框架中使用统计和物理特征来系统地分析和评估它们对识别系统的性能对要识别的整组活动的影响。为了进一步提高识别性能,我们遵循[9]和[10]的思想,将单层框架扩展到一个多层框架,以分层方式为不同的活动选择最重要的特征。本文的结构如下。第2节介绍了本研究中使用的传感平台和数据集。第3节定义了统计和物理特征。第4节描述了特征选择技术。第5节和第6节介绍了单层和多层层次结构的设计和评估