机器学习模型中的无意识偏差

机器学习模型中的无意识偏差

您听说过多元化的团队可以创造更好的产品,但您是否看到它以数据驱动的方式得到证明?

无意识的偏见影响着我们所有人。我们都在日常生活中做出假设,其中一些可能是不正确的或完全有害的。这些判断失误的严重程度与我们的经验有很大关系。有了各种各样的经历,就会有一种开放的态度,如果没有这种多样性,我们看待新情况的镜头就太少了,以至于我们倾向于做出封闭的决定。发生这种情况的原因是因为每一次新的体验都会为我们提供新的数据来了解世界。

现在,看看我们合作时会发生什么。我们可以汇总每个数据,做出比我们单独做出更好的决策。但在一个拥有许多拥有相似数据的类似合作者的房间里,甚至是思想开明的个人,这种聚合就变得不那么强大了。这就是技术行业需要更多多元化团队的原因。每个新人都有不同的背景和经验,有更多的视角来看待问题,从而产生更具创造性和包容性的解决方案。

为了证明这个断言,我们需要能够模拟它。我们知道机器学习 (ML) 模型对数据中的偏差特别敏感,就像人类一样。此属性使机器学习模型以这种特殊方式成为人类行为的一个很好的模拟。根据 面对人脸识别技术的偏见 , “面部识别技术错误识别黑人和亚洲人脸的频率是识别白人脸的 10 到 100 倍。与男性相比,这些技术对女性的错误识别率更高——这使得黑人女性特别容易受到算法偏见的影响。”语音识别模型在理解女性声音方面很差,因为关于白人男性声音的数据比女性和其他少数族裔声音的数据要多得多。文本分类系统因学习文本中表达的人类偏见而臭名昭著。

方法

为了收集有关不同数据对机器学习模型性能影响的数据,我们使用了一种机器学习模型,该模型对给定面部的不同方面进行分类。为简单起见,我们创建了二进制分类数据集:男性与女性以及白人与非白人。在这种特殊情况下,UTKFace 数据集只有男性和女性面孔,因此对男性与女性而非男性与非男性进行二元分类是安全的,但在未来,我们有望开始看到更多性别多样化的数据集.使用底座 UTKFace 数据集 ,由田纳西大学诺克斯维尔分校提供,我创建了不同人口构成的子集。

  • “劳动力”数据集使用来自当前 STEM 劳动力的人口统计数据,根据 美国国家科学基金会 .对于男性/女性数据集,我们分别使用了 65.9%/34.1% 的拆分。对于白色/非白色,我们使用了 65.3%/34.7% 的比例。
  • “多样化”数据集使用了整个美国公众的人口统计数据,根据 美国人口普查局 .对于男性/女性数据集,我们分别使用了 49.5%/50.5% 的拆分。对于白色/非白色,我们使用了 59.3%/40.7% 的比例。

尤其是在基于种族的实验中,Diverse 数据集仅代表朝着更加多元化的劳动力迈进了一步,但根据美国公共人口统计数据,严格遵循这些数字仍然意味着房间里的白人比其他任何人都多,这不是最终目标。真正的公平来自房间里的每个人都有不同的观点,并不一定意味着遵循特定的人口统计准则。但是出于定量实验的目的,这就是我们选择数字的方式!

为了避免引入不必要的差异,我们首先只拍摄 18 到 65 岁的人的图像来进行分析。然后,对于每个人口构成,我们提取每个样本以获得较大百分比并计算这些样本,然后我们从较低百分比组中抽取足够的随机样本来创建我们想要的百分比。通过这种方式,我们创建了最大可能的所需百分比数据集。

使用 Tensorflow,我们创建了一个经典的卷积神经网络 (CNN) 进行训练。架构如下图所示。

Colorful diagram showing the architecture of the Convolutional Neural Network

Architecture diagram for the CNN

  • 重新缩放:将图像调整为标准尺寸。对于这个数据集,所有的图像都已经是正确的大小,所以这个层只是一种形式。
  • 卷积:使用卷积将许多可学习的内核应用于每个通道以获得更多通道。我不会深入讨论卷积,而是从图像中矩阵乘法的滑动窗口的角度来考虑它。
  • Max-pooling:选择一个窗口,只取该窗口中的最大值进入下一层。
  • 展平:获取输入层的所有通道,并将它们展平为一维值列表。
  • 全连接:经典神经网络,权重从每个输入层值连接到每个输出层值

为了训练模型,我们使用了 Tensorflow 和 Adam 优化算法,这是随机梯度下降的更优化版本。我们使用 Google Colab 来运行我们所有的训练、测试和评估,并使用 Matplotlib 来可视化输出数据。为了测试模型,我们使用具有不同人口构成的测试集来代表美国人口。

为了进行我们的实验,我们首先在 Workforce 数据集上训练和测试模型 10 次,然后取平均准确率。然后,我们对 Diverse 数据集执行相同的操作。为简单起见,我们将重点放在主要指标的准确性上,尽管在实践中检查其他性能指标(如拟合)很重要,以真正确定模型的性能。

数据分析与解读

性别

The training/validation accuracy/loss for the Gender-based Workforce and Diverse datasets, respectively

这些图表显示了一个训练周期过程中的准确度和损失曲线。如您所见,该模型能够在任一数据集上进行训练,但在 Diverse 数据集上的验证准确度提高了 10% 左右。损失函数计算样本与实际模型的接近程度的平均值。将模型视为一个非常复杂的函数,将每个样本视为该函数同一图表上的一个数据点。损失函数计算该样本与模型之间的距离,对每个样本执行此操作,并对距离进行平均。因此,您可以看到严重偏向男性面孔的数据集与任何女性面孔的距离都更大,从而导致平均损失更高且准确性更低,即使在理论上可能具有任何人口统计数据的随机抽样验证集上也是如此化妆,尽管男性面孔多于女性面孔的可能性更高。

Workforce 数据集的平均准确率为 74.9%,Diverse 数据集的平均准确率为 81.5%。准确率的差异为 6.6%,解释这一点的一种方法是,Diverse 模型正确分类的人脸比 Workforce 数据集多 6.6%。出于我们论证的目的,将模型视为产品、任何产品,并将准确性视为该产品适用的用户群。在这种情况下,仅在美国,Workforce 产品就错失了 1100 万潜在女性客户,相差 6.6%。这就是为什么公司执行公平的招聘实践如此重要的原因:由同质团队创造的产品并没有尽可能多地

种族

我们对基于种族的 Workforce 和 Diverse 数据集进行了相同的分析,准确率分别为 65.3% 和 69.0%。这是 3.7% 的差异,占有色人种的 500 万潜在客户。

The training/validation accuracy/loss for the Race-based Workforce and Diverse datasets, respectively

结论

必须重视员工队伍中的多元化团队,不仅是为了创新和使国家更具包容性,而且是为了为更大的客户群创造产品,使公司受益。因此,公平雇佣符合公司的最佳利益。

我的公司能做什么?

从高中开始,您的公司就可以通过赞助课外活动、夏令营等活动,甚至大学奖学金,特别是针对来自弱势群体的学生,努力让学生参与并激发他们对 STEM 的兴趣。您的公司还可以与现有组织合作,例如 编码的女孩 Kode 与 Klossy 赋予下一代女孩权力,并用你在科技领域的故事和经历来激励她们。

对于大学生,贵公司可以将招聘人员派往拥有多元化学生群体的大学,并邀请这些学生参加社交活动或午餐和学习。贵公司还可以与学生组织合作,迎合代表性不足的群体并赞助他们的活动和活动,例如黑客马拉松。此外,许多大学都在寻找公司来为他们的学生赞助他们的顶点项目,所以这也会有很大帮助。您的公司还可以在现场举办网络/小组活动,因此大学生将更好地了解成为这家公司的一员的期望,并获得所需的适当指导,以了解他们如何在建立职业生涯中迈出下一步在技​​术领域。

对于寻找全职工作的候选人,贵公司可以确保派遣招聘人员参加 Tapia(由 ACM 提供支持)、GHC(由 AnitaB.org 提供支持)或 WE(由女性工程师协会提供支持)等会议。此外,在内部,您的公司可以确保您的员工资源组获得所需的支持来发挥作用并提供指导机会,特别是对于来自代表性不足的群体的员工。

所有这些想法都将使您的公司参与发展 STEM 员工队伍并为自己获得这些好处。

我能做些什么?

作为个人,有很多资源可以帮助您成为更具包容性的同事和经理。但就本文而言,您能做的最好的事情就是使用我们的数据来说服贵公司的决策者,公平招聘是一件可以花时间和金钱做的事情。分享这篇文章!将其用作与上级会面的基础!说出来:从现在开始,我们将公平招聘,并支持劳动力中代表性不足的群体。

这篇文章是与合作写的 美达爱亚 作为我们在华盛顿特区举行的 2022 年 CMD-IT/ACM TAPIA 会议上演讲的配套文章。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/3054/10423109

posted @ 2022-08-31 09:12  哈哈哈来了啊啊啊  阅读(20)  评论(0编辑  收藏  举报