读AI未来进行式笔记02深度伪造

1.       计算机视觉

1.1.         在人的六感之中,视觉是最重要的

1.1.1.           人类只要看上一眼视频,就能瞬间在脑海中抓取并消化内容和信息

1.1.2.           人类能够对事物进行广义的理解和抽象的认知,即使同一物体在不同的角度、光线、距离下存在视觉上的差异,甚至有时会被其他物体遮挡住,人类也能通过推理产生相应的视觉认知

1.1.3.           在“看”的时候,调用了许多过去积累的有关这个世界的知识,包括透视现象、几何学、常识,以及之前看过、学过的所有东西

1.2.         Computer Vision,CV

1.2.1.           目前的计算机视觉技术已经具备了实时处理能力

1.3.         计算机视觉是AI的一个主要分支,它的目标是教会电脑“看懂”世界

1.3.1.           主要研究如何让计算机拥有“看”的能力

1.3.2.           “看”不仅意味着看到并捕捉一段视频或图片,而且意味着能够分析并理解图像序列的内容和含义

1.4.         自深度学习发明以来,我们在计算机视觉领域所取得的种种突破,一方面使得AI感知技术达到了空前的水平,另一方面也引起了世人对AI的重视

1.5.         避免走入所有视觉影像都真假难分的死胡同

1.5.1.           真理与早晨随着时间的流逝变得光明

1.5.1.1.            非洲谚语

1.6.         功能

1.6.1.           图像采集和处理

1.6.1.1.            使用摄像头及其他类型的传感器采集真实世界中的三维场景,将其转化为视频

1.6.1.2.            每段视频就是一系列的图像,而每个图像都是一个二维矩阵,矩阵里的每个点都代表人所能看到的颜色

1.6.1.3.            点也就是所谓的“像素”

1.6.2.           目标检测和图像分割

1.6.2.1.            把图像划分为若干个不同区域和物体

1.6.3.           目标识别

1.6.3.1.            对物体进行识别,并在此基础上掌握更多的细节特征

1.6.4.           目标追踪

1.6.4.1.            在视频中定位和跟踪物体

1.6.5.           动作识别

1.6.5.1.            对动作和手势进行识别

1.6.6.           场景理解

1.6.6.1.            对一个完整的场景进行分析并理解,掌握其中复杂而微妙的关系

1.7.         应用

1.7.1.           化身汽车上的“助理驾驶员”,监测人类驾驶员是否疲劳驾驶

1.7.2.           进驻无人超市(如天猫无人超市),通过摄像头自动识别顾客把商品放进购物车的过程

1.7.3.           为机场提供安全保障,用于清点人数,识别是否有恐怖分子出没

1.7.4.           姿态识别,开发Xbox舞蹈游戏,为用户的动作打分

1.7.5.           人脸识别,让用户“刷脸”解锁手机

1.7.6.           智能相机,iPhone的人像模式可以识别并提取前景中的人物,巧妙地让背景虚化,效果堪比单反相机

1.7.7.           应用于军事领域,将敌方士兵与平民区分开,或打造无人机和自动驾驶汽车

1.7.8.           对照片和视频进行智能编辑,在计算机视觉技术的支持下,可以实现优化抠图、去红眼、美化自拍等功能

1.7.9.           医学图像分析,比如检查判断肺部CT中是否有恶性肿瘤

1.7.10.      ⑩内容过滤,监测社交媒体上是否出现色情、暴力等内容

1.7.11.      ⑾根据一段视频内容搭配相关广告

1.7.12.      ⑿实现智能图像搜索,根据关键字或图像线索查找目标图像

1.7.13.      ⒀实现换脸术,把原视频中A的脸替换为B的脸

2.       卷积神经网络

2.1.         CNN

2.2.         在20世纪80年代首次提出了“卷积神经网络”这个概念

2.2.1.           当时并没有足够的数据和算力让卷积神经网络发挥应有的作用

2.3.         直到2012年前后,人们才清楚地意识到这项技术有潜力击败所有传统的计算机视觉技术

2.3.1.           在2012年前后,人们用开始流行起来的智能手机拍摄了海量的图像及视频,然后把它们分享到社交网络上,深度神经网络的训练才有了充足的数据

2.3.2.           高速计算机和大容量存储设备的价格大幅下降,为计算机视觉技术提供了算力支持

2.3.3.           这些要素汇合到一起,共同促进了计算机视觉技术的发展和成熟

2.4.         基于标准神经网络的深度学习并非易事

2.4.1.           卷积神经网络是为计算机视觉而生的一种改良版深度学习模型架构,而且有不同版本的变体,适用于处理不同类型的图像和视频

2.5.         卷积神经网络(CNN)就是受人类视觉工作机制的启发而产生的

2.5.1.           每个卷积神经网络中都有大量类似于人脑感受野的滤波器

2.5.2.           每个滤波器的输出,都是它所检测的特征的置信度

2.6.         深度学习的原理,就是通过不断向模型“投喂”大量的图像实现模型的优化,在这个过程中,卷积神经网络的所有滤波器都将自主学会应该提取哪一个特征

2.7.         在实际训练中,卷积神经网络将以最大化目标函数为前提,自主决策每一层滤波器会提取哪些特征,也许是条纹、耳朵,但更可能是一些超出人类理解范畴的特征

3.       生成式对抗网络

3.1.         第一篇有关GAN的论文发表于2014年

3.1.1.           GAN技术已经被应用于视频、演讲和许多其他形式的内容之中

3.2.         GAN

3.2.1.           GAN是由一对互相对抗(博弈)的网络组成的深度学习神经网络

3.2.1.1.            经过数百万次这样的“对抗”之后,生成式网络和判别式网络的能力会不断提升,直至最终达到平衡

3.2.2.           其中的一个网络名为生成式网络,负责尝试生成一些看起来很真实的东西,例如基于数百万张狗的图片,合成一张虚构的狗的图片

3.2.2.1.            生成式网络会根据判别式网络的反馈,重新进行自我训练,努力让损失函数最小化,即缩小真实图片与合成图片之间的差异,朝着下一次能够成功愚弄判别式网络的目标迈进

3.2.3.           另一个网络名为判别式网络,它会把生成式网络所合成的狗的图片与真实的狗的图片进行比较,确定生成式网络的输出是真是假

3.2.3.1.            判别式网络也会重新进行自我调整,努力让损失函数最大化,希望练就火眼金睛,不被生成式网络蒙骗

3.3.         超对抗性生成网络

3.3.1.           Hyper-Generative Adversarial Network,H-GAN

3.4.         更有建设性的工作

3.4.1.           让照片中的人物变年轻或者变老

3.4.2.           为黑白电影及照片上色

3.4.3.           让静态的画作(如《蒙娜丽莎》)动起来

3.4.4.           提高分辨率

3.4.5.           检测青光眼

3.4.6.           预测气候变化带来的影响

3.4.7.           发现新药

3.5.         不能把GAN和Deepfake画上等号,因为这项技术的积极影响将远远超过其负面影响,绝大多数新出现的突破性技术也都是如此

4.       Deepfake

4.1.         一切都关乎成本,无论是造假还是打假

4.1.1.           如果不考虑所耗费的时间与算力资源,理论上,任何人都可以伪造出完美的图像或视频,可以骗过所有的防伪检测器,直到对方训练出下一个更强大的版本

4.1.2.           这是一场永无休止的矛与盾之战,因此聪明的策略就变得尤其重要

4.2.         深度伪造

4.2.1.           难题是,如何让假的变得更假

4.3.         深度伪造(Deepfake)攻守双方的拉锯战就将演变成一场军备竞赛——拥有更多算力的一方会获得最终的胜利

4.3.1.           发达国家在大约10年内就能部署昂贵的计算机来防御Deepfake,也有足够好的复杂工具和AI专家来进行防御,进而率先实施相关的反Deepfake法案

4.4.         伪造者和鉴别者之间高精尖版“猫抓老鼠”的博弈史无前例地上演着

4.4.1.           利用技术手段欺骗人类视觉

4.4.2.           如果AI不仅可以看见、识别物体,还能对其加以理解及合成,那么就可以巧妙利用这些能力,创造出让人们无法分辨真伪的图像和视频

4.4.3.           人们再也无法单纯依靠肉眼来辨别一段视频究竟是实地拍摄的,还是利用技术手段伪造的

4.4.4.           一旦知道了渔网是如何织成的,也就知道了如何利用纵横交错的网线中间的空隙

4.4.4.1.            无论空间多么狭小,漏网之鱼都能找到机会

4.5.         DeepMask模型

4.5.1.           算法“面具”应用在任何以阿玛卡或那位富家小姐为主角的视频上,便可以实现肉眼无法分辨的换脸效果

4.5.2.           如果网速足够快,还可以实时换脸,乐趣更多,但也需要付出更多的额外劳动

4.5.3.           用TransVoice和Lipsync开源工具包合成语音和与之相匹配的嘴唇动作,替换视频中相应的部分

4.6.         用在有益的方面

4.6.1.           给医疗AI的训练数据集换脸以保护隐私,同时保留患者的面部病征

4.6.2.           给老旧的黑白影片上色、提高分辨率,甚至修改演员嘴形以配合不同的语言

4.6.3.           通过图像快速评估水果和农产品质量

4.6.4.           拍一部真正的电影

4.7.         在我们的世界里,未来的所有数字信息都有被伪造的可能

4.7.1.           通过制造谎言来消除谎言

4.7.2.           无论是线上的视频、录音,还是安保摄像头拍摄的画面,甚至法庭上的视频证据,都有可能是假的

4.7.3.           除了伪造传播性极广的谣言或假新闻,Deepfake还可能被有心之人用于伪造证据、敲诈勒索、骚扰、诽谤,更严重的还会操纵选举

4.8.         目前大多数Deepfake视频都可以被算法检测到,有时甚至用人眼就可以辨别出来,原因在于,这些视频在制作时使用的算法还不够完善,而且没有足够的算力做支撑

4.8.1.           为了以AI制AI,Facebook和谷歌都曾发起过Deepfake视频鉴别挑战赛

4.8.2.           严苛的防伪检测器消耗的算力非常大,如果一个网站每天都会收到数百万段用户上传的视频,那么防伪检测器的有效性就将大打折扣

4.8.3.           长远来看,阻止Deepfake的最大难点其实在于GAN的内在机制——生成式网络和判别式网络会在一次次“博弈”之后携手升级

4.9.         针对Deepfake视频的防伪软件将成为类似于杀毒软件的存在

5.       防伪检测

5.1.         过于严苛的防伪检测器设置会消耗大量算力成本,同时让视频加载速度变得缓慢,影响用户体验

5.2.         政府网站和官方新闻网站数据流量有限,其防伪检测器会采用最高级别的设置

5.2.1.           会设置强度最高的防伪检测器,以甄别网站上是否有由强大算力训练而成的GAN生成的高质量伪造视频

5.3.         一般的社交网站和视频平台,则会针对当下最流行的伪造算法进行精确打击,其防伪级别会根据内容传播的数据量动态调整,数据量越大,检测越严苛

5.4.         防伪检测器的所有检测,包括色彩失真、噪点模式、压缩率变化、眨眼频率、生物信号等

5.5.         VIP检测器

5.5.1.           针对的正是那些流量最大的意见领袖

5.5.1.1.            政要、官员、明星、运动员、知名作家等

5.5.2.           为了防止这些赛博空间里的超级节点遭到仿冒,对现实秩序造成巨大破坏,网站不得不采用融合了多种信号的检测器算法

5.5.3.           算法包括但不局限于超高分辨率的面部识别,结合传感器和人体工程学的步态识别、手/指几何学识别和体态识别,涉及语音、语义及情感计算的说者识别,从真实视频中采集生物信号进行脉搏识别,等等

5.5.4.           所有这些数据均来自真实的名人,交给H-GAN进行深度学习,在不断与伪造者升级对抗后得到近乎完美的模型,再融入一个更大的监测系统以发挥作用

5.5.5.           VIP检测器甚至会将一个人的病史档案作为数据参照,前提是这个人足够重要

5.6.         检测准确率能够达到100%的防伪检测器

5.6.1.           这在未来并非无法实现,只不过可能需要采用一种完全不同的检测方法

5.6.1.1.            每台设备在捕捉视频或照片时,就对每段视频和每张照片进行认证,用区块链保证它是原版的,绝对没有经过篡改

5.6.1.2.            每个网站在用户上传内容时,只要确认该内容是原版的,就不存在伪造的可能了

5.6.1.3.            这种方法落地的前提之一是,让所有电子设备都部署上区块链技术(就像如今的AV播放器全部带有杜比音效)

5.7.         需要出台相应的法律,对恶意制造Deepfake的人采取严厉的处罚措施,以威慑潜在的犯罪者

6.       三维建模

6.1.         这种方法与3D动画片《玩具总动员》的制作过程类似

6.2.         属于计算机科学分支之一——计算机图形学的研究范畴,这是一门使用数学算法对一切事物进行建模的学科,哪怕是像头发、微风、阳光、阴影一样细微的事物,也要有相应的数学模型

6.3.         三维建模方法的优点在于,人们的创作自由度较高,可以随心所欲地创建各种物体,并操纵这个物体去做各种事情

6.4.         这种方法的缺点是计算复杂程度更高,对算力的要求也更大

7.       生物特征识别

7.1.         主要用于实时的身份鉴定

7.2.         实时的身份鉴定可以更精确,因为可以用到摄像头之外的传感器,比如可以实时捕捉虹膜和指纹的传感器

7.2.1.           这两种数据都是独一无二的,非常适合用于身份鉴定

7.2.2.           虹膜识别是被大众认可的最为精准的生物特征识别方法

7.2.2.1.            虹膜识别是在红外线的照射下捕捉并记录一个人的虹膜信息,然后将其与预先存储的虹膜特征进行比对

7.2.3.           指纹识别的准确率也非常高

7.2.4.           虹膜识别和指纹识别都离不开特定的近场传感器装置的辅助与配合

7.3.         在识别及鉴定任何单一维度的生物特征(例如人脸识别或语者声音识别)方面,AI的准确率已经超过了人类的平均水平

7.4.         在综合考量多维度生物特征的情况下,AI的识别准确度已经趋于完美

7.5.         智能生物特征识别技术将更广泛地应用于刑事调查和取证,可以解决更多的犯罪问题,甚至有助于降低人类的犯罪率

8.       AI安全

8.1.         随着技术的不断进步,任何计算平台都可能出现漏洞及安全隐患

8.2.         随着AI的普及,AI本身也将暴露出各种漏洞并遭到各方的攻击,Deepfake反映出的只是其中的一个漏洞而已

8.3.         专门设计的对抗性输入是针对AI系统的攻击方法之一

8.3.1.           设计了一副新款太阳镜,让AI系统把戴上眼镜的他错认成了女演员米拉·乔沃维奇

8.3.2.           在路面上贴了一些贴纸,成功愚弄了特斯拉Model S型车上的自动驾驶系统,让其决定转换车道,直接开向迎面驶来的车辆

8.4.         一种攻击AI系统的方法是对数据“下毒”

8.4.1.           攻击者通过“污染”训练数据、训练模型或训练过程,来破坏AI系统的学习过程

8.4.2.           这可能导致整个AI系统彻底崩溃,或者被犯罪者控制

8.4.3.           对数据“下毒”的攻击手段更难被人类察觉

8.4.3.1.            模型中的复杂运算全部在成千上万层的神经网络中自主进行,而不是按照确切代码的指引进行的,所以AI系统先天就具有不可解释性,也不容易被“调试”

8.5.         加强模型训练及执行环境的安全性,创建自动检查“中毒”迹象的工具,以及开发专门用于防止篡改数据或与其类似的规避手段的技术

8.6.         过去通过技术创新攻克了垃圾邮件、电脑病毒等一道道关卡一样

8.6.1.           技术创新也能大大提高未来AI技术的安全性,尽量减少给人类带来的困扰

8.6.2.           技术创新所带来的问题,最终还是要依靠新的技术创新来进行改善或彻底解决

posted @ 2024-06-04 06:44  躺柒  阅读(23)  评论(0编辑  收藏  举报