【译】*均图像

原作:黑特·史德耶尔

引言:不久前,科幻作家 Ted Jiang 将 Chatgpt 的文本输出描述为“网络中所有文本的模糊JPEG”,或者:语义上的“糟糕的图像”。

 

但机器学习网络生成的模糊输出还有一个额外的历史维度:统计数据。机器学习工具创建的视觉效果是统计渲染,而不是实际存在的物品的图像。他们将焦点从摄影指示性转向随机歧视。它们不再指事实性,更不用说真理,而是指概率。光照瞬间拍照所带来的震撼被贝塞尔曲线、损失函数和长尾的拖累所取代,而这些都是由无情的官僚机构所造成的。

这些渲染代表了被网络劫持的大规模在线战利品的*均版本,采用弗朗西斯·高尔顿(Francis Galton)模糊的优生主义合成、8k、虚幻引擎的风格。作为数据可视化,它们不需要对其对象进行任何索引引用。它们不依赖于光子对传感器或乳剂的实际影响。它们集中在*均数、中位数附*;*庸的幻觉。它们通过表示*均值来代表标准。他们用相似性代替相似。就分辨率而言,它们可能是“糟糕的图像”,但在风格和内容上,它们却是:低劣的图像。

一组更传统的照片如何转换为统计渲染的示例:搜索“Have I been trained?”——由艺术家 Mat Dryhurst 和 Holly Herndon 开发的一个非常有用的工具——允许用户浏览大量数据。 laion-5b 数据集用于训练Stable Diffusion,这是最流行的深度学习文本到图像生成器之一。我的这些图片(图 1)显示在该训练数据中。Stable Diffusion对它们有何影响?让模型渲染“hito steyerl 的图像”,结果如下(图 2)。

Article figure NLR140-141-Steyerl-Figure1
Article figure NLR140-141-Steyerl-Figure2

 

那么,Stable Diffusion是如何从 A 到 B 的呢?当然,当然,这不是最讨人喜欢的“之前和之后”并列。我不会推荐这种处理。看起来相当刻薄,甚至有辱人格; 但这正是问题的关键。问题是:什么意思?谁的意思?哪一个?Stable Diffusion使我的肖像处于冻结年龄范围的状态,由内部未知过程产生,与训练数据虚假相关。正如我们所知,Stable Diffusion的实际代码并不应该归咎于“黑匣子”算法。相反,我们可以将其称为白盒算法或社交过滤器。这就是社会通过全球互联网垃圾过滤后对我的看法。所需要的只是从我的照片中去除现实的噪音并提取社交信号;结果是“*均图像”,相关*均值的再现,或者:不同深浅的*均值。

英语单词“mean”有多种含义,所有这些都适用于此。 “卑鄙”可能指出身卑微或卑鄙、规范、吝啬或肮脏。它与所指的意义、共同的观念有关,而且与金融或​​工具手段有关。这个术语本身是一个复合词,它模糊并叠加了看似不相容的含义层次。它将道德、统计、金融和审美价值以及普通和下层阶级的立场融入到一种模糊压缩的环境中。*均的图像远非随机的幻觉。它们是数据民粹主义的可预见的产物。他们发现潜在的社会模式,将相互冲突的含义编码为矢量坐标。他们想象出真实存在的社会态度,将普通人与下层阶级的地位、*庸和肮脏的行为联系起来。它们是残像,在其来源被抹去很久之后,仍被烧毁在屏幕和视网膜上。他们在没有心理或分析的情况下对自动化时代进行精神分析,在这个时代,大规模制造增强了生产。卑鄙的图像是不眠不休的社会梦,将社会的非理性功能处理成合乎逻辑的结论。它们是社会自我看法的纪实表达,是通过混乱的捕获和大规模数据绑架而获得的。他们依赖庞大的污染性硬件基础设施以及卑微和被剥夺权利的劳动力,将政治冲突作为一种资源。

 雅努斯问题

当一款名为 Dreamfusion 的文本转 3D 工具于 2022 年秋季试用时,用户开始发现一个有趣的缺陷。机器学习生成的 3D 模型通常有多个面,指向不同的方向(图 3)。这个故障被称为“Janus 问题”。
其原因是什么?一种可能的答案是,机器学习图像识别和分析中过分强调人脸;训练数据中的面孔比其他身体部位相对较多。罗马神话中掌管开始和结束的神雅努斯(Janus)的两张面孔分别面向过去和未来;他也是战争与和*之神,负责从一种社会状态过渡到另一种社会状态。

Article figure NLR140-141-Steyerl-Figure3

 

机器学习的两面性问题触及一个关键问题——个人与大众之间的关系。如何将人群描绘成一个整体?或者相反,作为群体、集体、团体、阶级或利维坦的人?个人与群体、私人与共同利益(和财产)之间的关系是什么,特别是在统计结果是*均群体构成的时代?

 可能性

这里(图 4)是另一个统计合成图,我的脸被纠缠在其中。

Article figure NLR140-141-Steyerl-Figure4

 

右侧幽灵般的性别“种族”模糊可以被称为垂直合影,其中人们不是并排而是一个在另一个之上。它们是如何产生的?

2016 年,我的名字出现在一个名为 ms-Celeb-1m 的概要中,这是一个 Microsoft 数据库,由互联网上碰巧出现的 10 万人的 1000 万张图像组成。该信息由艺术家 Adam Harvey 和 Jules Laplace 发布,作为他们的数据库研究项目 Megapixels 的一部分。
如果你的名字出现在这个列表中,微软将鼓励研究人员从互联网上下载你的脸部照片来建立生物识别档案。我已经成为面部识别算法早期训练数据集的一部分。但它是做什么用的以及由谁使用的?

事实证明,ms-Celeb-1m 引起了多个团体和机构的兴趣。例如,另一个数据集“Racial Faces in the Wild”的开发人员使用它来优化种族分类。他们对面部识别技术在非白人身上表现不佳表示遗憾。因此,他们着手“解决”这个问题。他们将 ms-Celeb-1m 数据集中的图像上传到识别界面 Face++,并使用推断的种族分数将人们分为四组:白人、亚洲人、印度人和非洲人。明确的原因是为了减少面部识别软件的偏差并使训练数据多样化。
结果是种族化表型的幽灵般的幻影,或者是一种准柏拉图式的歧视观念。

如果这些幽灵般的效果图让人想起弗朗西斯·高尔顿 (Francis Galton) 在 1880 年代创作的著名摄影合成作品,那么这绝非巧合。作为社会科学家、统计学家和优生学家的先驱,高尔顿开发了一种摄影叠加方法,以创作所谓的类型的肖像,例如“犹太人”、“结核病”和“罪犯”。
优生学家相信“种族改良”和“计划生育”,一些人主张绝育、隔离甚至彻底灭绝等方法,以消除社会中他们认为“不适合”的类型。这些幽灵往往是本应消失的类别的照片。

关于统计学先驱(包括罗纳德·费舍尔)的优生学背景的文章已经有很多。但统计学作为一门科学自诞生之日起就一直在发展。
正如贾斯汀·霍克(Justin Joque)所解释的那样,统计方法在二十世纪进行了微调,以纳入基于市场的机制和参数,例如合同、成本和可供性,并记录假阳性或假阴性结果的经济风险。结果是将经过精心校准的赌场的数学融入统计科学中。

使用数据,贝叶斯方法可以逆转费舍尔证明或反驳所谓零假设的程序。新方法则相反:从数据出发,计算假设的概率。可以对给定答案进行逆向工程以匹配最可能的相应问题。随着时间的推移,概率计算方法已经针对盈利能力进行了优化,在选择论的基础上增加了市场机制。

统计渲染给这个过程增添了一种*乎神奇的视觉效果。由于类别似乎是从数据本身中产生的,因此它们获得了直接表现或幻象的权威。数据不再通过图形、集群、曲线、图表或其他科学抽象的传统媒体来呈现。相反,它们以它们应该抽象的事物的形式被形象化。他们跳过调解,向虚假的内在性做出姿态。抽象和异化的过程被令人困惑的反向传播过程所取代,或者更简单地说:社会过滤器。如果乔克利用索恩-雷塞尔的真实抽象概念来描述统计的表示模式,那么“*均图像”可以被描述为“真实主义抽象”。
这一悖论反映了这种演绎模式核心的根本不连贯性。尽管这些渲染是基于相关手段,但它们会趋向于极端且无法实现的异常值,例如厌食症的身体理想。不切实际且可能无法生存的结果被规定为常态;一种早在机器学习之前就存在的人类社会调节模式。

在“*均图像”中,通过确定可能性,将统计数据直接整合到对象的相似度中。如果高尔顿对人脸执行了这个技巧,那么统计渲染进一步将他的方法扩展到动作、关系和物体的领域;整个世界。这些分布看似自发的幻影掩盖了神经网络“隐藏层”内的操作,这些神经网络通过各种与市场相关的权重和参数扭曲现有的社会关系,以趋向高度意识形态的“最优”。冯·米塞斯和哈耶克已经将市场视为超高效的计算机。事实上,在自由主义经济神话中,市场扮演着通用人工智能(AGI)的角色,即高级的、据称无所不知的结构,不应受到干扰或监管。因此,神经网络被视为模仿市场逻辑,其中现实永远处于拍卖状态。

这种统计数据的整合在 Dreamfusion 的 3D 模型中表现得很明显。最常见的统计类比是著名的硬币,如果抛掷硬币,如果公*且均匀的话,正面或反面的概率为 50%。但在 Janus 问题中,遇到头而不是尾的概率远高于 50%。事实上,可能根本就没有尾巴。开发人员注意到从 2D 图像导出 3D 渲染的基本问题。此外,如上所述,数据可能存在偏差,算法可能存在缺陷,或者遗漏某些内容,或者实验本身以及用于实验的工具,既不公*也不均匀。无论是哪一种,Dreamfusion 都产生了自己的概率论分支:可能性不是正面或反面,似然正面和正面。

这一切如何适用于我所纠缠的多种族面孔的复合图像?在数字榨取的自由主义逻辑中,剥削和不*等不受质疑;它们至多是多样化的。在这种情况下,RFW 的作者试图减少面部识别软件中的种族偏见。结果很容易重新包装,以便通过机器视觉算法更准确地识别少数群体。警察部门一直在等待并希望面部识别能够针对非白人面孔进行优化。这正是 MS-Celeb-IM 的研究结果所发生的情况。

看来我的名字和脸部的组合不仅被用来优化机器视觉的种族分类,而且这种优化很快就被付诸实践,以识别和追踪。我存在于互联网上的事实足以将我的脸变成实际存在的数字独裁政权所使用的歧视工具。到目前为止,网络上出现的大多数面孔可能都参与了此类行动。

*均生产资料

还有另一个更相关的原因,为什么所谓的消除数据集中的偏见会产生比它解决的问题更多的问题。这一过程限制了部分产出的变化,使这些产品更适合西方自由主义消费者,同时保持行业结构及其生产模式完好无损。但问题不仅在于(社会)*均水*,还在于整体生产资料。谁拥有它们?生产者是谁?生产在哪里进行以及如何进行?

创建过滤器以消除有害和有偏见的网络输出是一项越来越多地外包给弱势群体的任务,即所谓的微工人或幽灵工人。 Microworkers 识别并标记数据集中的暴力、偏见和非法材料。他们以报酬低廉的“微任务”的形式履行这一职责,将数字管道变成传送带。正如《时代》杂志 2023 年 1 月报道的那样,肯尼亚的低薪工人被要求向网络提供“带有标签的暴力、仇恨言论和性虐待的例子”。
该检测器现已用于 OpenAI 的 ChatGPT系统中。在西方大都市,微工人通常是从被难民或移民立法禁止进入官方劳动力市场的选区招募的,正如对德国一座大城市的数字工人的匿名采访所描述的那样:

数字工作者:我们都处于同样的境地,处于非常脆弱的境地。我们对这座城市和乡村都是陌生的,正在努力融入,我们迫切需要一份工作。我这一层的所有员工都至少有硕士学位,我不是唯一的。我的一位同事是一位生物学家,专门从事蝴蝶研究,必须完成与我完全相同的任务。因为真正的工作太难找了,结合她的专业,大家就干了这种兼职。他们都是高素质人才,具有不同的语言背景。

采访者:他们都是外国人?

数字工作者:全部。

采访者:工作怎么样?

数字工作者:太糟糕了。我在那里遇到的每个人都是一样的。在训练过程中,你被告知你将看到恋童癖、图像内容、露骨的性语言。然后当你真正开始工作时,你坐在办公桌前,你会看到令人难以置信的事情。这是真的吗?这项工作的长期影响非常糟糕。我的团队中没有人在事后没有遇到问题。睡眠障碍、食欲不振、恐惧症、社交恐惧症等问题。有些人甚至不得不去接受治疗。第一个月你要经历非常非常紧张的训练。我们必须学会如何识别过于激烈的内容。因为人工智能或机器学习机制无法决定微妙的案件。机器没有感觉,不够准确。

我变得沮丧。我必须去接受治疗。我被开了药。当我开始在那里时,我的主要工作是筛选含有露骨性内容的帖子和所谓的高优先级案件,这些案件通常与自杀或自残有关。有很多切割的图片。我必须分析哪些是自残,哪些是自杀。第二个月,我要求我的团队领导将我置于不同的内容工作流程中,因为我感觉很糟糕。

办公桌上有很多规定:不准打电话、不准带手表、不准拍照。没有纸,没有笔,没有任何可以做笔记的东西。有几次,我们看到无人机在窗外飞过。据说间谍正试图拍摄公司里发生的事情。发生这种情况时,每个人都被指示放下窗帘。有一次,一名记者在大楼外。我们被告知不要离开大楼,也不要与这位记者交谈。对于公司来说,记者就像敌人一样。

采访者:您的工作中涉及到哪种形式的人工智能?

数字工作者:我对我工作的地方使用的人工智能不太了解。

我认为他们试图以某种方式隐藏它。我们所知道的是,某种机器学习正在发生。因为基本上他们想用人工智能软件取代人类。我记得有一次他们尝试使用这个软件,但它非常不准确。所以他们停止使用它。

采访者:那是一个什么样的软件,它的具体任务是什么?

数字工作者:我不知道。这种知识只在公司的高管层传递。他们对这些信息保密。尽管我们到处听到谣言,但他们向我们隐瞒了这个项目。但AI是失败的,因为算法不准确。人们谈论人工智能,但我想说,它背后的技术仍然非常非常主流。这就是为什么他们需要我们人类。机器没有感情。他们无法触及。

作为同一项目的一部分进行的另一次采访描述了在德国的叙利亚数字工作者如何过滤和审查他们自己的家乡的图像,他们家乡被地震摧毁了,在这种情况下,图像中还包括他们的家园废墟。
对于社交媒体消费者来说,它们被认为过于暴力,但对于该地区的居民来说却不然,他们因战争和破坏而被驱逐,被迫成为流亡的幽灵工人。方便的是,军事暴力为位于德国的数字公司提供了新的、极易利用的难民劳动力。

因此,调整技术使其更具“包容性”可以改善少数族裔的身份识别,同时外包痛苦且报酬过低的劳动力。它可以优化歧视,从表面上净化商业应用程序,同时在此过程中公然创造剥削性的阶级层次结构。政治和军事冲突以及出于种族动机的移民障碍是造成劳动力被剥夺权利的重要工具。也许偏见不是一个错误,而是*均生产系统的一个重要特征。偏见不仅在代表性层面上产生影响,还会在视觉上贬低人们。所谓的消除它同样有助于巩固由战争、能源冲突和种族主义边境制度支撑的阶级等级制度,并且可以在*均生产体系中得到利用。

消除偏见并不是微型工人的唯一任务。他们还为自动驾驶汽车的街道照片添加标签,并对物体和人物的图像进行分类,以帮助机器学习网络区分它们。正如许多作家所指出的,人类幽灵工人是自动化的引擎——没有他们,自动驾驶汽车就无法运行。自动化的运行基于整个低薪人员团队的*均微观判断,而不是某些超级智能计算机。在某些情况下,这会导致人们冒充ais,即使不存在机器学习应用程序。一位研究人员报告说:

我们采访了巴黎企业家兼初创公司创始人 K.,他指责竞争对手声称自己在做人工智能,而实际上,他们通过海外*台招募人员,并将所有工作外包。他甚至声称“马达加斯加是法国人工智能的领导者”。更令人沮丧的是 S.,一名学生,他在一家人工智能初创公司实习,该公司为富裕阶层提供个性化的豪华旅行建议。他的公司的沟通策略强调自动化,据称其推荐系统基于从社交媒体中提取的用户偏好。但在幕后,它将所有流程外包给马达加斯加的微型供应商。它没有机器学习,实习生无法获得他梦想的高科技技能。

神经网络的隐藏层还隐藏了人类劳动的现实,以及所执行任务的荒谬性。从大量数据中自发产生的图像看似未经中介的魔力,依赖于生产层面的大规模剥削和征用。也许统计渲染中看似幽灵般的面孔实际上是隐藏的微型劳动者的肖像,令人难以忘怀且普遍存在的卑鄙图像。

隐藏的劳动力对于用于训练 prompt 生成器的数据集也至关重要。从互联网上抓取并收集到 Laion-5b(Stable Diffusion 接受训练的开源数据集)上的 58 亿张图像和说明文字,都是无偿人类劳动的产物,从编码和设计网站的人们到在网站上上传和发布图像的用户。
不用说,这些人都没有获得报酬,也没有获得数据池或由此构建的产品和模型的股份。数字资本主义内外的私有财产权只有在涉及富有的所有者时才有意义。其他任何人都可能经常被盗。

从*均到普通?

现在我们更清楚为什么两面神 3D 模型显示的正面多于反面:“硬币”被操纵了。无论是头像朝上还是“头像”,自动化还是——用阿斯特拉·泰勒的话说——虚假,品牌总是赢家。但劳动条件问题可以让我们对统计数据和现实的关系,或者相关性和因果关系问题进行更普遍的观察。许多作家,包括我自己,都把从基于因果关系的科学向基于相关性的假设的转变解释为神奇思维的一个例子,或者滑向炼金术。但如果这张图片也捕捉到了现实的一个重要方面呢?一个现实,不是受逻辑或因果关系支配,而是变得更像赌场?

一篇关于抑郁症和电子游戏的博客文章提供了一个很有启发性的例子。作者描述了在抑郁的时刻玩电子游戏,特别是享受那些小而重复的任务,这些任务会带来某种形式的建设性结果——种植庄稼,建造房屋:

电子游戏劳动之所以如此令人兴奋,是因为您有机会充分享受努力的回报。 你投入劳动并得到东西,这是一种非常直接的感觉。 最令人满意的游戏,是对实现基本马克思主义价值观的幻想模拟:劳动有权享受它所创造的一切。

作者描述了投入与产出、劳动与报酬之间的因果关系。令人震惊的结论是,这种因果关系在实际存在的资本主义中很少见,尤其是在不稳定的工作中。无论你付出什么努力,都不会以线性方式创造足够的产出——生活工资或适当形式的补偿。不稳定和高度投机的劳动形式不会产生线性回报;因果是脱节的。这也将阶级方面引入到现实生活中因果关系与相关关系的分布中。与在放松管制的机会领域中发生的工作相比,按小时支付工资的工作在工资范围的两端保留了更高程度的因果关系。因此,对于许多人来说,将日常生活视为赌场并希望获得投机性的意外之财更为“理性”。如果在因果范式中你只能零收入,那么购买彩票就成为一个非常理性的选择。工作开始变得像赌博。菲尔·琼斯(Phil Jones)以类似的方式描述了微作品:

因此,工人越来越多地在赌博和彩票的*乎神奇经济中运作。微工作代表了这一轨迹的严峻顶峰,下一个任务获得报酬的可能性,一次又一次地诱惑更多工人回来。错综复杂的奖励计划和可竞争的定价将任务游戏化,并有效地将多余和不稳定重新包装为新的、令人兴奋的工作兼职形式。

当“工资转化为赌注”时,概率不仅仅是对真实结果的评估,而且成为结果本身的一部分。
统计效果图说明了这一点。一旦社会因果关系部分被相关性取代,劳资关系就会被推回到维多利亚时代的血汗工厂时代,图像趋向于赌注,工厂变成了赌场。索引摄影至少部分地基于因果关系。但在统计呈现中,因果关系在一堆准非线性过程中漂流,这些过程不是偶然的,而是被不透明地篡改的。

机器学习行业中不稳定的劳动力,以及它所需的重复性调节和培训过程,提出了一个问题:谁或什么正在接受训练?显然,这不仅仅是机器,或者更准确地说是神经网络。人们也在接受训练——作为微型工人,但也作为普通用户。回到赫恩登和德莱赫斯特的精彩问题:“我接受过训练吗?”答案是:是的。不仅仅是我的图像,还有我自己。像 dall-e 这样基于提示的图像生成器当然依赖于训练机器学习模型。但更重要的是,他们训练用户如何使用它们,并在此过程中将它们集成到与专有机器学习应用程序相一致的新生产管道、软硬件堆栈中。

他们规范了一个孤立的生产环境,在该环境中,用户不断地向某些云系统支付租金,不仅是为了能够执行任务,甚至是为了访问工具和自己的劳动成果。一个例子是 Azure,根据微软的说法,它是“唯一一个提供具有大规模纵向扩展和横向扩展功能的AI超级计算机的全球公共云。”Azure 出租机器学习计算应用程序和计算能力,而微软则建立了自上而下的人工智能超级计算机。专有结构,包括机器学习就绪的硬件和软件、浏览器、模型访问、应用程序接口 (api) 等。 Adobe,这个世界上最令图像工作者痛恨、最令人费解、最具榨取主义的准垄断企业,正在朝着同一方向迅速前进。德韦恩·门罗 (Dwayne Monroe) 将这种准垄断称为“超级食利者结构”,在这种结构中,数字公司将用户的数据私有化并将产品卖回给他们:“科技行业劫持了各种公共资源,然后向我们出租了本应保持开放获得的资源。

许多数字和行政白领工人都受到基于机器学习的自动化的威胁;其中(排名不分先后)包括程序员、公关专业人员、网页设计师和簿记员。但更有可能的是,他们中的许多人将被迫通过租赁基于自己窃取的劳动力构建的服务来“升级”,以保持“竞争力”,而不是被机器学习自动化完全取代。如今,对这些专业人员的培训意味着让他们习惯在中期,并使他们习惯于依赖垄断,以便能够继续工作并获得自己的劳动成果。

这引起了人们对“卑鄙图像”的另一个方面的关注。与 NFTs一样,统计渲染是进入特定技术环境的入门工具。就 NFTs而言,这是一个通过钱包、交易所或分类账等工具运行的加密环境。就机器学习而言,基础设施由大规模、耗能、自上而下的云架构组成,基于冲突地区的人们或大都市中心的难民和移民提供的廉价点击劳动力。用户正在被整合到一个巨大的提取和开发系统中,这会产生巨大的碳足迹。

因此,认真对待两面派问题就意味着将自己从多重勒索和榨取的体系中解放出来。第一步是激活Janus神头(anus是古罗马神,他的头部具有两张脸,一面朝向过去,一面朝向未来)的另一个方面,即期待转变、结束作为开始,而不是回到由被盗数据组成的过去。为什么不将视角转向另一个未来——一个使用最小可行配置、由可再生能源驱动、不需要对数字生产方式进行盗窃、剥削和垄断制度的弹性小型技术时代?这意味着我们要摆脱一种由某种数字寡头金字塔计划主导的未来观念,这种计划依靠隐藏的微型工人的劳动来运作,其中因果效应被操纵的相关性所取代。如果两面神之一头朝*均线看,另一头则朝公地线看。

 

本文来自NLR ,并不代表译者观点。

posted @ 2024-02-03 00:30  白鹿原老张  阅读(10)  评论(0编辑  收藏  举报