Automatic detection of hardhats worn by construction personnel: A deep learning approach and benchmark dataset

自动检测施工人员佩戴的安全帽：深度学习方法和基准数据集.

文章信息：施工现场安全，安全帽佩戴检测，计算机视觉，卷积神经网络，反向渐进式注意力

摘要：
安全帽在保护建筑人员免受事故影响方面发挥着至关重要的作用。但是，由于各种原因，工人没有严格要求戴安全帽。为了提高建筑地盘的安全性，大多数现有工程通过多阶段数据处理来监控安全帽的存在和正确使用，这限制了适应性和通用性。本文提出了一种基于卷积神经网络的one-stage模型，用于自动监控施工人员是否佩戴安全帽并识别相应的颜色。为了便于研究，这项工作构建了一个新的公开可用的安全帽佩戴检测基准数据集，该数据集由3174张图像组成，涵盖各种现场条件。然后，通过提出的反向渐进式注意力，将来自不同尺度的不同层的特征进行区分融合，以生成新的特征金字塔，并将其反馈到单步多框目标检测（SSD）中以预测最终的检测结果。所提出的系统由端到端方案进行训练。实验结果表明，所提系统在各种现场条件下均有效，在输入尺寸为512×512时，可达到83.89% mAP（平均精度）。

1.介绍
虽然其他行业通过自动化和人工智能在生产力方面发生了深刻的变化，但建筑业务却没有。建筑业仍然是全球数字化程度最低的行业之一，对工人的需求巨大。然而，建筑业是最危险的就业部门之一。根据美国劳工统计局（BLS）的数据，建筑业的致命伤害率高于所有行业的这一类别的全国平均水平[1]。在中国，2012-2016年间，超过2850名建筑工人死于建筑施工活动，平均每天有1.57人死亡[2]。施工人员死亡总是由不同因素共同造成的。其中，创伤性脑损伤约占美国所有建筑死亡病例的24%[3,4]。因此，对现场安全政策和程序有迫切的需求，以提高建筑工地的安全性。使用个人防护装备（PPE），如安全帽，可提供有效的风险管理。尽管如此，由于各种原因，工人们并不完全遵守建筑工地的安全规定，即使他们以前接受过教育和培训[5]。因此，现有的安全检查做法主要依赖于检查员的人工监测和报告。
为了便于建筑工地安全检查员的安全监测工作，已经发表了大量关于自动安全帽佩戴检测的研究[6-19]。其中，与基于传感器[9,15,16]的高成本解决方案相比，基于视觉的技术[6–8,10–14,17–19]占据了主导地位。传统上，给定来自建筑工地监控摄像头的框架，基于视觉的技术通过多步执行安全帽佩戴检测，主要包括行人检测[20,21]，安全帽定位和安全帽识别。尽管已经进行了广泛的研究，但基于视觉的安全帽佩戴检测仍然具有挑战性。首先，背景和行人状态的巨大变化是由各种现场条件引起的，因此特定场景下的研究难以将其扩展到其他建筑工地。同时，由于存在离相机相对较远的小规模个体，因此很难将它们与背景杂乱和其他重叠实例区分开来。此外，几个个体可能存在于同一图像区域中，部分相互遮挡。这也使得安全帽佩戴检测变得困难。最后，到目前为止，还没有公开可用的开放数据集用于开发和评估各种情况下的安全帽佩戴检测算法。
在本文中，我们专门讨论了建筑工地上安全帽佩戴检测的任务。目标是确定建筑工地上是否所有人都戴着安全帽，如果是，安全帽是什么颜色的。上面提到的这项任务会使任何依赖特征提取的多步方法都存在问题。为了解决这个问题，这里介绍了卷积神经网络（CNN），与基于传统图像处理的方法相比，它能够自动特征学习，并在计算机视觉领域提供卓越的性能。我们的工作启发于单次多框目标检测（SSD)[22]的发展，该检测器通过单个CNN直接回归得到边界框来检测物体。然而，SSD通常无法检测到小规模物体，因为它在高分辨率的底层具有弱特征的固有属性，即使它已经构建了金字塔特征层次结构。为了有效地检测小规模的安全帽，我们开发了一种新颖的聚合框架，结合了所呈现的反向渐进式注意力（RPA），它将语义强大的特征逐步传播回底层。通过这种方式，可以有效地学习底层的特征，这些特征可能对应于具有较小尺度的物体，从而有助于检测结果。
总而言之，本文包含以下贡献：
(1)与常用的多步方法相比，本研究为自动识别建筑工地上穿戴的安全帽提供了单步检测解决方案。所提出的系统是端到端可训练的。此外，在拥挤的场景中，它具有比例变化，视点变化和遮挡这些更有效和更强大的功能。
(2)我们建议用反向渐进注意力来区分聚合多尺度卷积特征。这样的方案在各种建筑工地的小规模安全帽检测中显示出其优越性。
(3)我们构建了一个新的安全帽佩戴检测基准。它提供了包含 18，893 个安全帽实例的 3174 张图像。这些图像涵盖了场景和照明度的巨大变化，还包括遮挡的示例。基准测试中的每个实例都使用类标签及其边界框进行注释。我们称之为基准GDUT-安全帽佩戴检测（GDUT-HWD）。

2.相关工作
传统上，安全帽佩戴检测的方法可以分为两类：基于传感器的检测和基于视觉的检测。
基于传感器的检测方法[9,15,16]侧重于远程定位和跟踪技术，例如射频识别（RFID）和无线局域网（WLAN）。Kelm[15]等人设计了一个移动RFID门户，用于检查人员的个人防护装备合规性。但是，位于建筑工地入口处的RFID阅读器无法检查非入口区域。此外，它无法确定是否正在穿戴PPE。Dong[16]等人开发了实时定位系统（RTLS）和虚拟建筑，用于工人的位置跟踪，以决定工人是否应该戴安全帽并发送警告。为了确定是否戴着安全帽，在安全帽中放置了一个压力传感器，然后通过蓝牙传输压力信息以进行监控。Zhang[9]等人使用基于物联网（IoT）的架构开发了一种智能安全帽系统。为了确定安全帽使用的状态，在安全帽内放置了一个红外光束探测器和一个热红外传感器。当红外光束探测器和热红外传感器都被激活时，工人的安全帽使用得到了证实。一般来说，现有的基于传感器的方法依赖于个人防护装备中使用的物理标签或传感器，很难识别建筑工地上是否有人戴着安全帽。此外，标签或传感器的实际使用将导致大规模生产的巨大成本。
与基于传感器的检测方法相比，基于视觉的技术受到越来越多的关注。在这方面，常规相机的使用以及计算机视觉和模式识别技术的进步为基于视觉的安全帽佩戴检测奠定了坚实的基础。Wu[19]等人提出了一种基于颜色的混合描述符，该描述符由局部二进制模式（LBP），hu矩不变量（HMI）和颜色直方图（CH）组成，以提取不同颜色的安全帽的特征。然后使用分层支持向量机（H-SVM）将特征分类为四类（红色，黄色，蓝色和非安全帽）。Li[8]等人开发了一种基于ViBe算法和C4人类分类框架的工人检测方法。为了进行安全帽佩戴检测，裁剪了基于先验知识的头部区域，并利用HSV色彩空间进行分类。Mneymneh[10]等人提出了一个框架来监测安全帽佩戴，方法是首先使用标准差矩阵（SDM）检测移动物体，然后使用基于聚合通道特征的物体检测器对人类进行分类[23]。之后，基于定向梯度（HOG）特征直方图的级联物体探测器在识别人员的上部区域搜索安全帽，将其输入到基于颜色的分类组件中通常，这些多步方法在很大程度上依赖于特征提取来检测建筑工地上的工人。因此，在具有天气变化，不同视点和遮挡的复杂场景的情况下，它们可能会失败。
基于深度学习的对象检测的日益普及激发了基于CNN的安全帽佩戴检测。Fang[17]等人提出了一种基于Faster R-CNN[24]的方法，以自动检测建筑工人的非安全帽使用（NHU）。从各个建筑工地收集了总共81，000个图像帧作为训练数据集，以训练更快的R-CNN模型。在培训阶段，图像中感兴趣的工人（WOI）被注释为培训的基本事实。在测试阶段，NHU工人将被检测到，其余的将被视为背景。在这项工作中，识别安全帽颜色是不可行的。安全帽颜色可以表示建筑工地上的不同角色，这为加强施工安全管理提供了一种便捷的方式。此外，根据[24]的说法，严重依赖上部特征提取的信息的Faster R-CNN模型没有充分利用底部细节，这可能会在图像中不同尺度上影响NHU工人的检测性能。
本文提出了一种基于SSD框架的新型自动安全帽佩戴检测算法，以解决前作的局限性。我们在发布的基准数据集中展示了该方法的优越性，该数据集具有为研究界和工业应用开发新的卓越算法的好处。

3.原则
从放置在建筑工地上的摄像机收集的图像可能涉及许多具有挑战性的问题，例如比例变化，透视失真和部分遮挡。现有的多步安全帽佩戴检测方法通常无法有效地推广到各种现场场景，因为特征提取旨在处理特定情况。为了解决这个问题，在本文中，我们提出了一种基于SSD框架的单步数据驱动CNN方法。图 1 显示了我们架构的概述。

图1.单步安全帽佩戴检测模型的架构。这里采用了一个简化的VGG16网络。输入多框的特征金字塔由不同阶段的RPA模块生成。对于每个RPA模块，Conv层根据不同步的接受域使用不同的内核大小。最终结果是通过安全帽分类和边界框回归生成的。更多检测细节可以在[22]中找到。

3.1建议的安全帽佩戴检测框架
SSD是一种通用的对象检测器，建立在“骨干”网络之上，以一些卷积层结束。SSD的深刻思路在于在不同尺度的不同层中使用中间特征图，在高分辨率特征图中检测相对较小的物体，在较低分辨率的特征图中检测大物体。
在数学上，它可以定义如下

\[\mathbf{\Theta}_l = \mathbf{\Gamma}_l(\mathbf{\Theta}_{l-1}) = \mathbf{\Gamma}_l(\mathbf{\Gamma}_{l-1}(···\mathbf{\Gamma}_1(\mathbf{X}))) \tag{1} \]

\[Detections = T(\mathbf{\tau_l}(\mathbf{\Theta_l}),···,\mathbf{\tau}_{l-n}(\mathbf{\Theta_{l-n}})),l>n>0 \tag{2} \]

其中\(\mathbf{\Theta}_l\)是第\(l\)层中的特征映射。\(\mathbf{\Gamma}_l\)表示将\(l − 1\)层中的特征映射转换为第\(l\)层的非线性映射，这可能是卷积层，ReLU层和池化层等的组合。此外，\(\tau_l(·)\)将第\(l\)个图层的特征映射转换为特定比例的检测结果。最后，\(T\)将所有\(n\)个中间结果组合在一起，实现最终检测。

3.2反向渐进式注意力
对于小规模安全帽佩戴检测，由于池化和卷积等重复的下采样操作，小分辨率的顶层包含较少的检测特征。相比之下，大分辨率的底层保留了丰富的空间细节，但包括语义上较弱的特征。为了准确定位安全帽区域并同时识别安全帽的颜色，需要将多级特征组合在一起。但是，由于冗余的细节和背景的干扰，不加选择地连接多级功能的现有方法存在缺陷。注意机制学习在每个像素位置对多尺度特征进行加权，在显著目标检测[26]和语义分割[27]中变得越来越普遍。受注意力机制的启发，我们提出了反向渐进式注意力（RPA），它逐步编码多级上下文信息，以生成用于安全帽佩戴检测的更抽象的特征。给定第 \((l − 1)\) 层中 \(Θ_{l−1} ∈ R^{C/2×H×W}\) 的特征，空间注意力映射\(α_{l−1}\)是由

\[\mathbf{\Psi}_{l-1} = W_s * UP(\mathbf{\Theta_{l-1}})_2+\mathbf{b_s} \tag{4} \]

\[\alpha_{l-1} =Sigmoid(W_m * \mathbf{\Psi_{l-1}} +\mathbf{b_m}) \tag{5} \]

其中\(*\)表示卷积运算，\(W_s ∈ R^{C/2×3×3} 和W_m ∈ R^{1×k×k}\)表示卷积滤波器。\(b_s ∈ R^{C/2} 和 b_m ∈ R^1\) 是偏置参数。\(UP(·)2\) 表示将特征映射上采样 2 倍。现在，已经生成了语义强特征\(Θ_{l−1}\)的空间注意力权重\(α_{l−1}∈[0， 1]^{1×2H×2W}\)，这可以作为\(Θ_l\)选择性地产生新的注意力特征的指导，如方程（6）中计算的那样。

\[\mathbf{\Phi}_l^i = \alpha_{l-1} \circ \mathbf{\Theta}_l^i \]

\(i\in\{1,···,C\}\)，\(\mathbf{\Phi}_l^i,\mathbf{\Theta}_l^i \in R^{1\times2H\times2W}\)，\(\circ\)表示矩阵的哈达玛积，在我们提出的聚合框架中，利用关注的特征\(Φ_l\)来检测最终结果是逐步产生的。同时，注意力映射\(α_{l−1}\) 以无监督方式学习，无需任何分割注释。

4.实验结果
我们的实验都是基于VGG16，它是在ILSVRC CLS-LOC数据集上预先训练的[28]。我们使用随机梯度下降（SGD）微调VGG16的简化版本，初始学习率为\(10^{−3}\)，动量为0.9，衰减为0.0005，批大小为2。所有实验都在一台配备Nvidia Quadro M2000M 4GB GPU的机器上进行。这些数据和基于Caffe[29]的CNN模型是公开的。

4.1数据集统计信息
所提出的基准数据集GDUT-HWD是通过下载搜索引擎使用关键字检索到的互联网图像而生成的，该图像涵盖了场景，视觉范围，照明度，个人姿势和遮挡方面的巨大变化。GDUT-HWD 的图像数量为 3174 张，分为 1587 张用于训练（GDUT-HWD 训练）和 1587 张用于测试（GDUT-HWD 测试）。它包含 18，893 个实例，分为 5 个类，每个实例都使用类标签及其边界框进行注释。值得注意的是，此数据集中的小规模实例（面积≤ 322 像素）最大，这给安全帽佩戴检测带来了挑战。因此，为了测试探测器对不同大小的物体的能力，我们还根据实例的大小将实例分为三个比例类别：小物体（面积≤322像素），中型物体（322<面积≤962）和大物体（面积>962像素）。每个类的实例![]
数如表 1 所示，每个规模类别中的实例数如图 2 所示。

4.2评估指标
采用广泛使用的平均平均精度（mAP）和每类平均精度（AP）来评估不同模型的性能。AP 用于计算精度\(\times\)召回率曲线曲线下的面积，而 mAP 是 5 个类的 AP 平均值。精度和召回率是针对每个类计算的，定义如下

\[Precision = TP/(TP+FP) \tag{7} \]

\[Recall = TP/(TP+FN) \tag{8} \]

其中，TP 定义为具有联合交互作用（IoU）的正确检测数≥ 0.5。FP是错误检测的数量，而FN是真值却检测错误的数量。

4.3结果与比较
以前的研究已经确定了特定于场景的非安全帽使用检测的有效性，但到目前为止，还没有公开可用的开放数据集用于对现有方法进行性能比较。因此，我们为发布的 GDUT-HWD 创建了两个基线，其中包括 5 个类的 mAP 平均值和对象缩放的 AP。同时，我们发布了主要部署在低内存和实时处理的系统中的模型。所有结果均基于基于 CNN 的物体检测器，如表 2 和表 3 所示

4.3.1GDUT-HWD的基准测试结果
我们在表2中报告了GDUT-HWD测试集的检测结果，其中上部分结果来自最先进的全尺寸检测模型，而下面结果来自我们提出的模型。如表2所示，我们的低分辨率SSD-RPA300型号已经更加准确，超过Faster R-CNN 9.55%mAP和SSD300 2.12%mAP。如果我们在较大的 512 × 512 输入图像上训练模型，则可实现 83.89% mAP 的最佳结果，这比 SSD512 略好 0.62%（83.89% 对 83.27%）。结果表明，输入图像的大小对于基于SSD的模型的检测性能至关重要，因为图像中的对象在某些深层中仍可以保持强大的空间信息。表2还表明，聚合多尺度特征图进行预测时，检测精度显著提高。例如，Fang等人采用的基于Faster R-CNN的模型的性能最差，因为它限制了变换单比例特征图conv5以进行检测。
此外，结果还表明了所提出的模型在帮助相对较小的安全帽佩戴检测方面的优势。如表2所示，尽管SSD-RPA300和SSD-RPA512在大中型实例中没有显示出优势，但需要注意的是，当我们采用相同的输入分辨率时，SSD-RPA300型号的表现优于其他小型安全帽方法，比ResNet-50 [30] + FPN [31]好1.66%（52.09%对50.43%）。在输入大小不断增加的镜像时，我们的 SSD-RPA512 型号在小型实例中仍能达到最高的 mAP （67.05%），比 SSD512 型号高出 0.92%。虽然 SSD-RPA512 对于映像尺寸较高的小型实例没有显著改善，并且在检测中型和大型实例时性能略有下降，但它证实 RPA 有助于提高安全帽佩戴检测器和小型实例检测的性能，尤其是图像尺寸较小的实例。检测中型和大型实例的性能下降可能归因于过度强调小尺度的特征提取，这使得顶层的特征对中型和大型实例的区分性降低。图 3 显示小型、中型和大型实例的精度×召回率曲线。如图3所示，可以看出，与大中型物体的检测相比，由于顶层信息消失，小型安全帽检测是一个相当大的挑战。尽管如此，所提出的RPA可以通过有区别地聚合多级特征来提高性能，这体现了类和小对象的改进。

4.3.2轻型探测器基线
为了满足实时处理和低内存的工业要求，我们发布了轻量级安全帽检测模型。这些模型在资源（模型大小和FPS）和检测精度（mAP）之间实现了更好的权衡，这对于资源受限的使用非常有用。其中，我们嵌入在Pele [32]（Pelee-RPA）中的RPA在检测准确性方面优于其他公司，同时在速度和内存存储方面仍保持竞争。结果报告于表3中。

4.4消融实验
为了了解RPA的有效性，我们进行了实验，以检查RPA的每个阶段如何影响性能。为了衡量所获得的优势，我们逐步删除RPA模块并比较结果。为了进行公平的比较，我们遵循常见的训练策略，即使用相同的学习配置在GDUT-HWD训练val集上训练我们的模型。训练的模型在 GDUT-HWD 测试集上进行测试。表4显示，MAP随着RPA模块的减少而降低，从75.22单调下降到74.66。结果表明，从顶层到底层的有区别地反向传播特征可以有效地提高性能，而只需要少量的额外计算成本。

4.5可视化
在图4中，我们展示了SSD-RPA512型号在 GDUT-HWD 上的一些检测示例。这些示例涵盖了许多因素，包括视觉范围、照明度、个人姿势和遮挡。这些可视化结果表明了我们提出的模型的潜在能力，该模型可以很好地推广到各种建筑工地。

5.讨论
用于识别非安全帽使用的自动系统为降低创伤性脑损伤风险和提高建筑工地安全性提供了有效的方法。以前的研究已经指出了通过计算机视觉技术而不是基于传感器的方法检测安全帽的重要性。然而，大多数研究都采用了多步检测方法来解决这个问题，在适应和实际可行性方面存在局限性。同时，在审查文献时，尚未公布该领域的基准，由于保密性限制，无法获得真实的工业数据。这项研究的目的是通过基于CNN的方法从现场场景中识别任何个人的安全帽使用。因此，在所提出的基准数据集GDUT-HWD上进行了广泛的实验，验证了所提方法的有效性。
在这项研究中，基于CNN的安全帽佩戴检测方法被发现在各种现场条件下都非常可靠和稳定，例如视觉范围，照明度，个人姿势和遮挡。关于识别小尺度个体在远场图像中的安全帽使用的问题，本研究发现，在SSD框架中，特征与建议的反向渐进注意（RPA）的聚合可以提高性能。对包含 1587 张图像的 GDUT-HWD 测试集的评估，以及与在 GDUT-HWD 训练val 上训练的现有流行对象检测模型的比较，证明了其优越性。可以解释为高分辨率特征图中上下文信息的增加大大提高了小尺度物体的检测精度。通过与RPA区别地连接多级特征，底层引入了小尺度物体的更多上下文和空间信息。与直接连接多级功能相比，这种方法将更加轻量级和低计算成本。
我们的研究与其他基于深度学习框架的研究具有相似性。例如，Fang等人[17]训练了一个更快的RCNN模型来检测非安全帽的使用。然而，我们的研究至少在三个主要方面是重要的。
(1)提议的数据集GDUT-HWD更具挑战性。首先，这需要检测所有使用安全帽和非安全帽使用的工人，并识别相应的安全帽颜色，而Fang等人的数据集仅用于检测NHU工人。安全帽颜色可以表示建筑工地上的不同角色，这为加强施工安全管理提供了一种便捷的方式。其次，我们数据集中工人头部区域的真是数据的边界框注释比Fang等人对数据集中整个工人的地面真值边界框注释更合理。Fang等人的数据集严重依赖整个工人的边界框注释，这不可避免地包含通常占据矩形面积一半以上的背景像素，从而引入歧义和不确定性来混淆检测。相反，工人头部区域的注释使检测结果对遮挡和部分头部可见情况不那么敏感，从而使探测器更加坚固。
(2)实验结果表明，与Fang等人采用的Faster R-CNN方法相比，我们的模型更有效。根据表2，当两个模型都在GDUT-HWD 上进行训练和测试时，我们的SSD-RPA300在mAP中比Faster R-CNN 高出 9.55%（75.22% vs 65.67%），在 AP 中比速度快 14.23%（52.09% 对 37.86%）。不仅如此，Faster R-CNN模型的性能最差，这可能归因于转换单尺度特征图以进行检测的局限性，而其他方法则充分利用了多尺度特征图。
(3)为了帮助该领域的研究，数据，训练的模型和源代码是公开的。据我们所知，这是第一项同时检测安全帽使用和非安全帽使用工人并在单个模型中同时对安全帽颜色进行分类的研究。这可以用作未来研究的基线。
在将来的调查中，建议使用ROI分割注释扩展GDUTHWD数据集，并对对象检测任务和语义分割任务执行多任务学习。这有助于检测小规模安全帽并提高泛化性能。

6.总结
提高现场人员的安全是开发智能建筑工地的基本要求。为了降低建筑行业的致命伤害率，安全帽是不可或缺的设备，可以在检查和操作过程中保护个人免受脑损伤。
本文提出了一种基于CNN的方法，可以自动检查建筑工地上是否有人戴着安全帽，并识别安全帽的相应颜色（蓝色，白色，黄色和红色）。首先，一个新的基准数据集GDUT-HWD被分为训练集和一个测试集，以开发和评估各种基于CNN的对象检测模型，用于安全帽佩戴检测。其次，为了更好地检测小规模安全帽，将所提出的反向渐进式注意（RPA）集成到SSD框架中，以有区别地将上下文信息传播回底层。测试结果表明，我们的RPA-SSD型号在各种条件下，在不同输入尺寸下都能实现出色的性能。这项工作通过提供第一个公开可用的数据集和现场监测的实时模型，为现有的安全帽佩戴检测知识做出了贡献。目前，需要进一步提高小规模安全帽检测的准确性，并将安全帽检测与物体跟踪技术相结合，实现实时安全监控。

posted @ 2022-07-26 15:22 呵呵哈希阅读(469) 评论(0) 收藏举报

刷新页面返回顶部

Little Demon

Automatic detection of hardhats worn by construction personnel: A deep learning approach and benchmark dataset

公告