CopyMark:首个针对扩散模型的成员推理攻击(MIAs),检测特定图像是否存在于扩散模型的训练数据集中。
2024-10-05,南加州大学和伊利诺伊大学香槟分校的研究人员揭示了现有成员推断攻击Membership inference attacks (MIAs)评估中的关键缺陷,并引入了CopyMark,这是一个更现实的MIAs基准,它支持预训练扩散模型、无偏数据集和公平评估流程。
一、研究背景:
近年来,扩散模型在图像合成领域取得了革命性的进展,能够稳定地训练大规模网络源数据集,包含数十亿的图像。然而,这些预训练模型在训练数据集的使用上引发了对未授权数据使用的担忧,因为它们经常包含大量未经适当授权的版权图像。
目前遇到困难和挑战:
1、现有的MIA评估存在缺陷,如模型过度训练和数据集分布偏移,这使得MIA在现实世界中的应用效果被高估。
2、版权所有者针对预训练扩散模型的生产商提起了一系列诉讼,使得MIA作为确定特定图像是否包含在扩散模型训练数据集中的证据变得尤为重要。
3、需要一个统一的基准来评估MIA在现实世界条件下的有效性,以确定其是否可靠地识别预训练扩散模型中的未授权数据使用。
二、让我们一起来看一下CopyMark
CopyMark是首个针对扩散模型的成员推理攻击的统一基准,支持预训练模型和公平评估。
CopyMark收集了所有预训练的扩散模型,并提供了可访问的未偏移非成员数据集。它实现了最先进的MIA方法,并引入了额外的测试数据集,用于对MIA进行盲测试。
CopyMark的特点:
1、支持预训练扩散模型,无过度训练。
2、成员和非成员数据集无分布偏移。
3、实现了额外的测试数据集,用于盲测试MIA。
CopyMark通过两个阶段的评估流程:首先在验证数据集上找到最优阈值或训练分类器,然后在测试数据集上进行盲测试。
基准测试 :
包括了多种MIA方法,如基于损失的方法和基于分类器的方法,并在CopyMark上进行了广泛的实验,结果显示当前的MIA方法在现实条件下效果显著下降。
三、让我们一起展望 CopyMark应用场景
比如,你是一位才华横溢的摄影师。你拍了一组非常棒的城市风光照片,这些照片在业界广受好评。但有一天,你在网上闲逛时,发现了一个AI图像生成网站,这个网站能够生成与与风格非常相似的照片。你开始怀疑,这个网站是不是用了你的照片来训练他们的AI模型,而且还没经过你的同意。
你对此感到很气愤,因为自己的版权受到了侵犯。但你需要证据才能上法庭告他们。于是,你找到了一个专打版权官司的律师团队,并告诉了他们你的怀疑。
律师团队听了你的情况后,决定使用一个叫做CopyMark的工具来调查,专门用来找出AI模型是否偷偷用了未经授权的照片来训练。
首先你先提供所有的原始照片,然后从那个AI图像生成网站下载了一堆他们生成的照片。
接着,用CopyMark对这些照片进行了一系列的测试。
这个工具会分析AI模型对这些照片的反应,看看它们之间有没有什么猫腻。如果AI模型在处理张三的照片时表现得特别“熟悉”,那就说明它很可能在训练时用了你的照片。
最终,测试结果出来了,CopyMark发现AI模型在处理你的照片时,的确有不寻常的反应,这表明它在训练时可能真的用了你的照片。这个发现让你和律师团队非常振奋,这对于案件的推进起到很大作用。
于是,我们把这个证据提交给了法院,开始了诉讼。在法庭上,律师展示了CopyMark的测试结果,证明了AI网站在未经你同意的情况下,使用了你的照片来训练他们的模型。
最终,法官判决AI网站侵犯了你的版权,并要求他们赔偿你的损失,还要删除所有侵犯版权的内容。这个案例也给其他AI公司敲响了警钟,让他们意识到在使用数据训练模型时,必须尊重原创作者的版权。