微小的变化为何能够欺骗深度学习系统
人工智能的弱点:从医疗诊断到自主车辆,探索改变单一像素会如何损害先进的深层次学习模型,并探索确保我们的人工智能的未来的关键挑战。
导言
深层次学习 是人工智能(AI)的一个基本组成部分。它的目的是使机器能够执行需要决策机制的任务,这些决策机制往往接近人类的推理机制。DL模型是许多先进应用的核心,如医疗诊断和自主驾驶。
不幸的是,与所有其他系统一样,它们也无法避免可能被网络犯罪分子利用的漏洞。例如,单像素攻击是通过修改(顾名思义)图像的一个像素来破坏模型精度的最有效方法之一。
本文解释了单像素攻击是如何工作的,以及它们在许多领域可能产生的影响。本文还讨论了针对人工智能系统的保护策略,以提高其可靠性和安全性。
概述
深层次学习导论
深层次学习是人工智能的一部分 神经网络 识别数据中的模式。这些神经网络模仿人类大脑的结构和功能,使他们能够从大量的数据中学习,并做出预测或决策。例如,深度学习模型可以识别图像中的物体,理解口语( 自然语言处理 ),甚至用医学影像诊断疾病。
为了充分了解深层次学习技术的重要性,以下是其实际使用的几个例子:
1.健康:医学成像
深入学习模型被广泛应用于医学成像的处理和理解,以检测癌症等疾病。例如, 卷积神经网络(CNN) 用于分析乳房X光检查以检测乳腺癌。这项技术提供了高度精确的恶性肿瘤鉴定。
它可以通过向放射科医生提供第二种意见来帮助降低人类犯错的风险。
2.自动驾驶
自主车辆依靠DL算法实时处理来自传感器和相机的数据。这些模型用于对象检测、车道识别和决策。例如,特斯拉的自动驾驶仪利用深度学习来处理数据,并对车辆的环境做出反应,以确保安全的导航和驾驶。
3.自然语言处理
DL是自然语言处理(NLP)的重要组成部分。在生成型人工智能出现之前,DL就已经在对话技术上取得了进展,比如聊天机器人,谷歌助理和亚马逊阿列克莎等虚拟助手。这些系统通过深入学习来理解和处理人类语言,从而能够回答问题,执行任务,甚至与用户进行对话。
还有许多其他例子。在金融部门,正在利用深入学习的模式,通过分析交易模式和查明显示欺诈的异常现象,发现欺诈活动。在零售业,像亚马逊或网飞公司这样的平台正在深入学习,提供个性化的推荐。系统分析用户行为、偏好和购买历史,以改善用户体验,另一方面增加销售。
所有这些都说明了深入学习在各个部门的影响程度,以及这种技术能够提高复杂任务的效率和准确性的领域。
是什么激发了对深入学习的攻击?
正如我们刚才看到的,深度学习模型是广泛应用中使用的强大工具。然而,他们可能很容易受到攻击。网络犯罪者可以针对这些模型作出错误的决定,这可能产生严重后果。例如,通过操纵一辆自主汽车的神经网络,攻击者可能导致汽车误解信号,并危及车辆的使用者。
现实生活的例子
在现实生活中,研究人员展示了用于检测乳腺癌的深学习模型的弱点。通过修改医学图像中的单个像素,他们能够欺骗IBM的最大乳腺癌检测器做出错误诊断(*)。这一例子突出说明了此类袭击对保健等关键领域的严重影响。
(*) "电脑辅助癌症诊断一像素攻击欺骗"
"在转移攻击环境中,重新定位攻击可以成功地欺骗商业面部识别服务,并将自动识别系统搜索面API和天蓝面部验证的精确度从91%降至50.1%,从82%降至16.4%" - arXiv:2012.00517v6
单像素攻击概览
单像素攻击通过改变输入图像的单个像素来攻击深度学习模型,导致模型对图像进行错误分类。此攻击使用微分进化算法来识别最优像素进行修改.即使不知道模型的内部参数,这种方法也是有效的。
传播图显示了单个像素的修改如何影响一个深神经网络。这些映射显示了更改如何通过网络的层传播,以及一个小的本地化更改如何影响最终决策。
这就是为什么单像素攻击在许多地区带来严重风险的原因。在医学成像中,它们可能导致错误的诊断,就像乳腺癌检测器那样。例如,在网络安全方面,它们可以欺骗面部识别系统。
一像素攻击的机制
正如我们现在所理解的,一个像素攻击是一种对抗攻击,它利用深神经网络的弱点,修改输入图像的一个像素,从而导致错误分类。
矛盾攻击
对抗式攻击涉及对输入数据进行小规模的、有意的更改,以欺骗机器电子学习模型做出错误的预测或决定。这可以在许多不同的方式发生,除了图像。
例如,在文本数据中,攻击者可以改变单词或字符来欺骗语言模型。在音频数据中,它们可以增加细微的噪声来欺骗语音识别系统。在网络安全方面,对抗性攻击可能涉及轻微修改恶意软件代码,以绕过防病毒软件。
同样,在金融系统中,攻击者可以操纵市场数据,欺骗交易算法,使交易变得错误。
单像素攻击
单像素攻击利用了深神经网络的复杂决策过程。他们使用微分进化算法来识别最大化错误分类概率的像素的最优修改。微分进化算法迭代搜索可能的像素修改空间.它使用随时间演变的候选解决方案群。
单像素攻击的成功是由于深神经网络(DNN)对小扰动的敏感性。dnns很容易被人类不会注意到的微小变化所愚弄。微分进化算法的工作原理是生成一组势解,然后合并和修改这些解来找到最佳候选解。每个候选解决方案代表一个潜在的像素变化,算法评估每个变化对网络分类结果的影响。通过不断完善解的群,该算法最终在一个像素变化上收敛,从而导致所需的错误分类。
它是如何运作的
执行一个像素攻击通常需要使用微分进化算法,这是一种基于给定质量度量的迭代改进候选解的优化方法。以下是对这一过程的详细说明:
1. Initialization
该算法首先生成一组候选解.在单像素攻击的上下文中,每个候选者代表了对图像中单个像素的潜在修改。这些候选人通常在图像的尺寸和颜色值的范围内随机初始化。
2.突变和交叉
对于每个候选解决方案,算法执行突变和交叉操作以创建一个新的候选。突变包括从人群中选择三个不同的候选人,通过在第三个候选人中增加两个候选人之间的加权差来创建一个新的候选人。然后交叉组合这个变异的候选人和最初的候选人产生一个试验候选人。该方法在候选群体中产生多样性,使算法能够更有效地探索解决方案空间。
3. Selection
根据试验候选人对神经网络分类结果的影响进行评价。如果试验候选人导致模型比原候选人更有效地对图像进行错误分类(或增加目标错误分类的可能性),它将取代原候选人中的原候选人。这个选择过程是由一个适合函数指导的,在这种情况下,它测量错误分类的概率。
4. Iteration
突变、交叉和选择步骤在几个迭代中重复进行。随着每一次迭代,人口的演变和候选人变得越来越有效地导致错误分类。这个过程一直持续,直到算法识别出一个变化,导致所需的错误分类和高度的信心。
5. Result
最后的结果是,修改后的图像带有单一像素的变化,这成功地欺骗了神经网络做出错误的预测。
视觉化和分析
传播映射提供了一种新的可视化方法,可以观察单个像素的变化如何影响深神经网络。这些地图追踪像素扰动的影响,因为它通过网络的分层传播,从局部化的变化到全局化的变化。这个转换帮助我们理解单像素攻击的力量。
当我们检查传播映射时,我们可以看到单像素变化在网络中传播时的影响是如何增加的。最初,扰动可能看起来微不足道,但当它通过网络的分层传播时,它可能导致网络输出的实际变化。
位置分析可以更好地理解像素级的攻击。该分析包括测试与中断像素相邻的像素的脆弱性。结果表明,邻近像素通常具有相似的漏洞,表明攻击的有效性不限于一个点,但会影响更大的区域。这样,攻击就利用了卷绕层的接收域。这些层中的每个神经元响应输入图像的特定区域,该区域的变化会显著影响神经元的输出。因此,攻击的成功与这些接收域的结构和功能有关,而不是与单个神经元或像素有关。
变化
有几种变化可以改进单像素攻击。
其中一个优化包括 DNN网络形成阶段的后门 .这种方法创建了可以稍后开发的漏洞,使网络更容易受到单像素攻击。
另一种变化是使用 关键像素迭代算法 识别和锁定最可能影响网络性能的像素。这些算法使用许多不同的技术,包括基于梯度的方法和启发式的搜索策略,以确定最重要的像素。
视觉化技术 逆境映射和激活映射等也在优化单像素攻击中发挥着至关重要的作用。
逆境地图 突出图像中对干扰最敏感的区域,鼓励攻击者集中精力在这些区域。 激活图 展示图像的不同部分如何激活网络中的神经元,揭示哪些像素影响最大。
通过将这些可视化工具和优化算法结合起来,攻击者可以设计出更有效的破坏,增加成功攻击的机会。
所有领域的应用
利用关键系统中的漏洞,单像素攻击在许多领域被证明是有效的。
例如,在医学成像领域,这些攻击可以欺骗用于诊断疾病的人工智能模型,正如我们在上面看到的IBMCODAIT的MAX乳腺癌检测器,导致错误的分类。
在网络安全领域,一次像素攻击对面部识别系统构成特别威胁。
面部识别
通过修改一个像素,攻击者可能会导致这些系统错误识别个人,从而损害安全性。
在一个研究(*)中介绍了在面部识别背景下的一次像素攻击的一个显著例子,该研究探讨了如何将对抗性摄动应用于面部识别模型。当然,目的是尽可能降低他们的性能。
通过修改单个像素,攻击会导致面部识别系统识别错误或无法准确识别个人。这项研究表明 面部识别 技术即使受到小的不利修改也是脆弱的。
(*) ARXIV:1710.08864V7"重构:对面部识别系统的实时对抗式攻击"
"结果表明,KagleCIFF-10测试数据集中的自然图像占67.97%,伊马内特测试数据中的自然图像占16.04%,通过修改一个像素,平均74.03%和22.91%的置信度,至少可以干扰到一个目标类别" - arXiv:1710.08864v7
这种类型的漏洞扩展到依赖图像识别的其他应用程序,例如自主驱动。在这些系统中,攻击可能导致车辆误解路标,导致错误甚至危险的驾驶决定。
防御机制
为了降低OPP攻击的风险,建立了若干防御机制,包括补丁选择识别器和多初始化CNN。这些方法通过解决深度学习模型在输入数据中的微小扰动面前的脆弱性,提高了它们的健壮性。
补丁选择指示器
一个有效的方法是补丁选择显示器,它从图像的局部补丁中移除潜在的攻击像素。私营部门司识别并消除具有异常模式的像素,从而减轻攻击的影响。这种方法特别有效,因为它侧重于图像的小区域,使攻击者更难创建成功的破坏。
多初始化卷绕神经网络(cnns)也显示出了防御这些攻击的希望。
这些网络使用对抗式培训方法,在这种方法中,对模型进行的培训既要有透明的例子,也要有对抗式的例子。通过在训练过程中暴露网络于潜在的攻击,模型学会识别和抵抗不利的干扰。这种方法提高了网络的健壮性,并降低了它对单像素攻击的脆弱性。
尽管取得了这一进展,许多防御战略仍然容易受到适应性攻击的影响。攻击者不断改变他们的技术来面对现有的防御。这表明在这一领域进行中的研究和开发的必要性有多么重要。
多初始化CNN
在另一种方法中,多初始化cnn通过在同一网络中形成多个不同初始化的实例来提高模型的复原力。
每次初始化都会导致网络的权重和偏差略有不同的配置。在推理过程中,最终预测是通过聚合这些多个实例的输出来确定的,例如通过多数表决或平均法。这种集成方法降低了单个像素扰动系统地误导网络中所有实例的可能性。
多重初始化的不同响应提高了模型的整体健壮性,使其对小扰动(如单像素攻击中引入的扰动)的敏感性降低。
对模型安全性和准确性的影响
因此,单像素攻击确实会损害缺陷检测模型的准确性和可靠性,特别是在工业环境中。
这些攻击可能导致错误的肯定或否定,导致制造成本增加和利润减少。例如,制造厂的缺陷检测系统可能由于像素攻击而错误地将一个有缺陷的产品归类为"无缺陷",从而导致产品召回和财务损失。
强有力的重要性 人工智能申请中的安全措施 很好理解。对抗式攻击,如单像素攻击,使人怀疑人工智能在关键应用程序的核心的可靠性。它们不仅损害了它们的有效性,而且也使人们对企业必须对它们有信心产生怀疑。
结论
单像素攻击有效性的现实突出了AI开发中的一个基本张力:模型复杂性和健壮性之间的权衡。
随着深层次学习模型变得越来越复杂,它们也会对微妙的干扰变得越来越敏感。这种悖论要求重新评估我们对AI设计的方法,可能更倾向于在关键应用程序中使用更简单、更可解释的模型。它还强调需要一个完整的人工智能安全方法,该方法超越简单的模型体系结构,包括数据完整性、系统设计和操作保障。
由于人工智能已经成为我们日常生活的一部分,我们必须确保它在面对这种攻击时的复原力。它似乎不仅成为技术挑战,而且也成为社会当务之急。