Transformer历史揭秘及Transformer-DETR

揭秘创始八子：聚是一团火，散是满天星

Transformer创始八子深度揭秘：陈旧的身躯留不住年轻的心。

谁曾想过，引发人工智能革命的突破竟源自一个改进机器翻译的想法？

智东西8月21日消息，据英国《金融时报》报道，被称为“ChatGPT奠基之作”的著名架构Transformer的八位作者均已离开谷歌。Transformer的发布如同人工智能领域的“宇宙大爆炸”。八位研究人员都看到了人工智能领域的新希望，相继选择离开谷歌，各自创立企业或加入新的团队以实现自己的抱负。

据悉，八位作者的初始想法只是想要改进谷歌的机器翻译，他们希望让机器通读整个句子，分析其所有部分，而不是单个单词逐个翻译。这一想法经过他们的讨论与碰撞后，成为“Transformer”架构的概念起点——“自我注意力（self-attention）”。

在这一基础上，八位作者结合各自专长，于2017年12月发布论文“Attention Is All You Need（你所需要的是注意力）”。这篇论文所描述的，就是“Transformer”架构。

身处人工智能浪潮之中，我们再度回看“宇宙大爆炸”的瞬间，可以发现，与科学发现中的诸多突破性进展一样，引发人工智能革命的突破性进展也凑齐了天时地利人和。

在英国《金融时报》万字揭秘中，全文回顾了Transformer架构的前世今生、八位作者陆续离开谷歌的缘由以及他们如今在人工智能领域的成就等等，我们将带你一文看尽。
01.Transformer创始八子：人均身价百万美元起

在详细讲述Transformer架构的前世今生之前，我们可以先来认识一下这八位作者，他们分别是Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。

▲图为Ashish Vaswani（左）和Niki Parmar（右），来源：金融时报

论文一作Ashish Vaswani（左）于2014年在南加州大学获得博士学位，并于2016年作为研究科学家加入谷歌大脑团队。2022年4月，他与团队8人之一Niki Parmar共同创办了Adept AI，但两人均于12月离开该公司，并共同创立了另一家人工智能初创公司Essential AI。

Niki Parmar（右）来自印度西部浦那。在加入谷歌担任软件工程师之前，Parmar也曾就读于南加州大学。她在谷歌大脑团队工作了四年，之后与Ashish Vaswani共同创立了Adept AI和Essential AI。

Essential AI的主营业务是为企业构建软件，便于企业使用大型语言模型。今年5月，Essential Al获得了由OpenAI投资者“Thrive Capital”领投的800万美元（约合人民币5858万元）融资。

▲图为Jakob Uszkoreit（左）和Illia Polosukhin（右），来源：金融时报

Jakob Uszkoreit（左）曾在柏林学习。2008年至2021年，Uszkoreit在谷歌工作。Uszkoreit于2021年离开谷歌，并与他人共同创立Inceptive。该公司主营业务为人工智能生命科学，致力于使用神经网络和高通量实验来设计下一代RNA分子。

Illia Polosukhin（右）曾在乌克兰哈尔科夫学习。Polosukhin于2014年加入谷歌，他是八人团队中最早离开的人之一，于2017年同他人共同创立了区块链公司NEAR Protocol。

Polosukhin曾任谷歌深度学习小组项目主管，带队负责核心搜索算法业务近10年，也是谷歌TensorFlow人工智能开源项目的主要代码贡献者。

他创立的区块链公司NEAR Protocol目前估值约为20亿美元（约合人民币146亿元），曾先后吸引包括a16z、MultiCoin Capital、Metastable、Coinbase Ventures等区块链领域的著名投资机构。

▲图为Noam Shazeer（左）和Llion Jones（右），来源：金融时报

Noam Shazeer（左）曾于2000年至2009年间和2012年至2021年期间就职于谷歌。2021年，Shazeer离开谷歌并与前谷歌工程师Daniel De Freitas共同创立Character.AI，致力于开发生成式人工智能聊天机器人。今年三月，Character.AI宣布完成1.5亿美元（约合人民币10.98亿元）融资，估值达10亿美元（约合人民币73.23亿元）。

Llion Jones（右）本硕毕业于伯明翰大学，曾工作于Delcam、YouTube。他于2012年加入谷歌，担任软件工程师。直到本月，他表示自己离开谷歌，并于日本创办人工智能初创企业sakana.ai。

▲图为Lukasz Kaiser（左）和Aidan Gomez（右），来源：金融时报

Lukasz Kaiser（左）曾在波兰和德国学习，曾任法国国家科学研究中心研究员。他于2013年加入谷歌。2021年，他离开谷歌，成为OpenAI的研究员。

Aidan Gomez（右）毕业于加拿大多伦多大学，Transformer论文发表时，他还是谷歌大脑团队的实习生。他是八人团队中第二个离开谷歌的人。

2019年，他与他人共同创立了Cohere，这是一家总部位于多伦多的初创公司，该公司专注于提供NLP模型，帮助企业改善人机交互。今年6月，Cohere拿到了由英伟达等参投的2.5亿美元融资，当前估值已达20亿美元。

02.AI的“宇宙起源”：Transformer

2017年初，两位谷歌研究科学家Ashish Vaswani和Jakob Uszkoreit在谷歌园区中讨论如何改进机器翻译（谷歌翻译背后的人工智能技术）的新想法。

在那时，Illia Polosukhin正与其他人工智能研究员合作研究一个他们称之为“自我注意力（self-attention）”的想法。自我注意力的概念是让机器通读整个句子，分析其所有部分，而不是单个单词逐个翻译。然后，机器就可以获得更通顺的上下文，并生成翻译。他认为，这一概念可以从根本上提升计算机对语言的理解能力。

当时，三位科学家认为这一方法将比现有方法更快、更准确。经过尝试翻译了一些英德翻译的文本后，他们发现自我注意力的概念是有效的。

在走廊里聊天时，Uszkoreit和Vaswani的想法也谷歌老员工Noam Shazeer无意中听到。

Shazeer曾经协助构建谷歌搜索“Did You Mean?”的拼写检查功能，他还参与了其他几项人工智能创新工作，但他对现有的语言生成方法感到失望，并在寻找新思路。

因此，当他听到同事谈论“自我注意力”这个想法时，他决定加入并提供帮助。Shazeer说：“我支持你们，让我们一起来做吧，这将使所有的人工智能研究员受益匪浅。”

这次偶然的谈话促成了八人团队为期数月的合作。他们研究了一种处理语言的架构，也就是“Transformer”。最终，八人团队于2017年发布了一篇简短的论文，论文标题简洁有力：“Attention Is All You Need（你所需要的是注意力）”。这篇论文描述了“Transformer”架构。

Llion Jones说这个标题是对披头士乐队歌曲“All You Need Is Love”的致敬。这篇论文于2017年6月首次发表，开启了人工智能的全新时代：生成式人工智能的崛起。

▲图为披头士乐队歌曲“All You Need Is Love”封面

如今，绝大多数的人工智能应用都是以Transformer为基础架构。它不仅嵌入在谷歌搜索和谷歌翻译中，还是所有的大语言模型（Large Language Model）的基础架构，包括ChatGPT和Bard等。

03.Transformer：把“前浪”拍在沙滩上

▲图为Transformer架构示意，来源：金融时报

像所有科学进步一样，Transformer建立在之前几十年的人工智能相关领域的工作基础上，这些工作来自谷歌自身的实验室，以及其子公司DeepMind（现已与谷歌大脑团队合并）、Meta和各个大学的研究人员等等。

但在2017年，这些碎片因谷歌研究部门的八位成员的偶然集结而得以融合。

最终的团队成员包括Vaswani、Shazeer、Uszkoreit、Polosukhin和Jones，以及当时还在多伦多大学攻读学位的实习生Aidan Gomez和Uszkoreit团队的硕士研究生Niki Parmar。第八位作者是Lukasz Kaiser，他也是法国国家科学研究中心的兼职学者。

尽管八人团队在教育、职业和地理背景上具有多样性。但是，八人的共同兴趣都是人工智能研究的新兴领域：自然语言处理。

Uszkoreit在美国和德国长大，他说：“拥有这样多样化的团队成员对这项工作的发展绝对至关重要。”

Uszkoreit最初拒绝涉足语言理解领域，因为他的父亲是计算语言学的教授。但当他来谷歌实习时，他发现当时人工智能领域最有意思的问题是语言翻译。尽管这让他感到有些恼火，但他最后还是延续了父亲的道路，开始专注于机器翻译领域。

据他们回忆，他们最初以三个独立小组的身份研究“自我注意力”的不同方面，但后来，他们决定集中起来。部分团队成员负责编写初始代码、清洗数据和进行测试，而其他人则负责围绕模型创建架构，并将其集成到谷歌的基础设施中，以确保其高效运行，并最终使其易于操作。

Jones谈到，“Transformer的想法是我们一起在办公室工作时自然浮现的。”谷歌丰富多彩的开放式工作环境一定程度上保证了员工的创造力。“我记得当时Jakob Uszkoreit骑着自行车来到我的办公桌前，他在我身后的白板上潦草地画了一个模型，然后收集了当时在场同事的想法。”

八人团队之间的联系源自他们对语言的痴迷与追求，他们希望能利用人工智更好地理解语言的动机。正如资深工程师Shazeer所说：“文本实际上是我们最集中的抽象思维形式。我一直觉得，如果你想构建真正智能的东西，你应该从文本入手。”

在论文中提到的模型是对原始“自我注意力”概念的简化版。Shazeer发现，当他们去除了所有花哨的附件后，这种简化版的运行效果更好。代码是模型运行的起点，但模型仍需要大量微调才能使其在GPU上运行。GPU正是最适合运行类似Transformer这样的深度学习架构的硬件。

Uszkoreit表示，“在深度学习的概念中，重点不仅在架构本身。关键在于如何将它们应用到硬件上。这像是一个巨大的黑魔法的宝库，只有极少数人才能真正掌握其中奥秘。”

这些硬件运行想法主要由Shazeer负责实现，他也被称为“魔法师”。正因能够在硬件中运行，Transformer在每一项应用任务中都取得了飞跃式的进步。

它的优点在于它支持并行计算，并能将计算打包，提高计算效率。Polosukhin说：“提升计算效率这件事非常简单，因为Transformer的架构非常紧凑。”

▲图为Lukasz Kaiser和Illia Polosukhin在NeurIPS会议上，背景中可以看到展示Transformer的海报，来源：金融时报

该论文于2017年12月发表，恰好赶上了当年在加利福尼亚南部举行的最负盛名的机器学习会议之一——NeurIPS。他们仍然记得，当他们展示工作海报时，他们被会议现场的研究人员团团围住。不久之后，谷歌之外的科学家们也开始将Transformer应用于从翻译到人工智能生成答案、图像标注和识别等各个领域中。目前，它在研究论文中的引用次数已经超过82000次。

“无论是理论还是实践领域，Transformer都经历了一次大爆发。”Vaswani表示：“Transformer推动了机器翻译的发展，语言模型Bert出现。当Transformer应用于谷歌搜索时，这意味着Transformer进入了搜索领域，也就是说，人工智能迎来了一个非常重要的时刻。”

论文发表后，Parmar发现Transformer可以生成类似维基百科的长篇文本，而以前的模型很难做到这件事。她说：“当时我们已经意识到，以前的研究根本无法生成长文本。”

Parmar还意识到了Transformer的一个关键特性：当你给Transformer越来越多的数据时，它们能够学得更好。这为GPT-4等大语言模型的出现指明了方向。在推理和语言能力方面，Transformer比它们的“前辈”要强得多。

“总的来说，几乎在任何可以应用它们的领域里，Transformer的表现都优于以前的旧模型。”Jones说，“我认为这就是Transformer被广泛应用的原因。”

04.八人出逃谷歌的前奏：Transformer太强了

然而，Transformer的真正威力远超语言范畴。它可以生成带有重复图案或模式的所有东西，从使用DALL·E、Midjourney和Stable Diffusion等工具生成的图像，到使用GitHub CoPilot等生成器生成的计算机代码，甚至DNA。

▲图为GitHub CoPilot示意

Vaswani对音乐特别感兴趣，她想知道Transformer是否可以用来生成音乐。她惊讶地发现它不仅可以生成古典钢琴音乐，还能生成当时最先进的人工智能模型。

“Transformer可以快速捕捉输入的不同部分之间的连接方式，一旦它捕捉到，它就可以从中学习。”Vaswani说。“这是一种通用方法。Transformer可以捕捉句子中各个部分之间的连接，或者音乐中的音符，图像中的像素，蛋白质的组成部分。它可以用于任何任务。”

05.八人团队陆续离开谷歌：新的种子需要新的土壤

Transformer的起源以及其八人团队的故事有助于解释人类在人工智能领域的发展：这是一个关键转折。就像曾经的互联网和智能手机一样，Transformer为新一代企业家提供了种子，让他们为大众开发出由人工智能驱动的消费产品。

但与此同时，这也凸显了在演变为庞大的“官僚机构”的过程中，谷歌究竟如何扼杀了本应蓬勃发展的创业精神以及快速推出新消费产品的能力。

哈佛商学院教授Clayton Christensen曾提出一个概念，名为“创新者困境”（innovator’s dilemma）。英国《金融时报》认为，八人团队的出逃正是这一概念的鲜明例证。“创新者困境”的概念探讨了行业巨头被小而新的企业超越的原因。尽管谷歌聚集了全球领先的深度学习和AI人才，并为他们创造了一个有利的研究环境，但却无法留住他们自己培养的科学家。

谷歌曾在一份声明中表示，对于Transformer和其创造的人工智能生态系统，他们感到“自豪”。谷歌承认在如今人工智能行业充满活力的环境中，有才华的员工可能会选择离开，堪称喜忧参半。

专家们认为，这些知识资本的增长带来了海量的人工智能创新。Alphabet旗下专注于人工智能投资的成长型基金CapitalG的合伙人Jill Chase表示：“Transformer已经成为几乎所有使用大语言模型的生成式AI公司的基础。我的意思是，它无处不在。因为有了Transformer，这些产品才得以存在。”

06.“没人想错过人工智能研究的丰硕成果”

在Transformer论文引起强烈的反响之后，八位研究人员非常希望尽快将自己的想法推向市场。

那时，人工智能研究的步伐正在加快，特别是在使用Transformer生成文本和图像等领域，但许多创新型贡献均来自于谷歌之外的初创公司，比如OpenAI。

据英国《金融时报》七位接受采访的Transformer共同作者表示，他们想知道他们所创造的工具能够做什么。“Transformer之后的几年是研究成果最为丰硕的时期。并且模型会不断吸收更多反馈，从而变得更智能，”Vaswani说：“没有人想错过这个机会。”

但他们也发现，谷歌公司的组织架构不允许员工进行冒险创业或迅速推出新产品。如果他们想要深入研究Transformer，他们需要开发一种“可以与计算机对话的新型软件”，Vaswani补充道，“想做这件事的话，离开谷歌后会更容易。”最终，他于2021年离开谷歌。

Polosukhin早在2017年就离开了谷歌，创办了一家名为NEAR Protocol的初创公司。他的最初想法是利用人工智能教计算机执行编程任务，但后来他转向了区块链支付领域。

后来，年轻且经验最少的Gomez也呆不住了。他曾在Kaiser的团队实习，他对时尚和设计充满热情，他认为自己正身处于有关语言理解研究的前沿。

他说，“我离开谷歌的原因是，我没有看到足够多的产品采纳了我正在使用的技术。谷歌的产品没有改变，没有迭代，没有采用这项新技术。在谷歌，我没有看到大语言模型真正发挥它的力量。”

2019年，Gomez离开了谷歌，创办了一家名为Cohere的生成式人工智能初创公司。该公司的估值现已超过20亿美元（约合人民币146亿元），获得了Nvidia、Oracle、Salesforce等公司的投资。Gomez希望将大语言模型应用于各种商业问题，涵盖银行、零售和客户服务等领域。“对我们来说，重要的是降低企业用户使用大模型的门槛，”他说，“每个开发者都应该能够使用人工智能技术来构建应用。”

▲图为Cohere官网示意

与此同时，Uszkoreit决定将Transformer应用于一个完全不同的领域。他的初创公司Inceptive是一家生物技术公司，正在使用深度学习技术设计“生物软件”。

该公司已经向一家大型制药公司交付了由人工智能设计的传染病疫苗分子。Uszkoreit表示：“我相信，这是迄今为止在我过去十年的工作基础上改善甚至拯救人们生命的最佳方式。”

Shazeer于2021年离开了谷歌，这正是他在谷歌的第二十年。他与他人共同创办了Character.AI。该公司致力于开发生成式人工智能聊天机器人。他说：“在大公司，我们可能很难推出新产品，但初创公司可以更快地实现我们的想法。”

Vaswani和Parmar于2021年同时离开谷歌，并合作创办了一家名为Essential.AI的人工智能公司，该公司致力于为企业构建软件、便于企业用户使用大语言模型。今年5月，这家初创公司获得了由OpenAI投资者“Thrive Capital”领投的800万美元融资。

“谷歌是一个很棒的公司，但他们希望优化现有的产品，所以我们很难推出新产品。”Parmar说：“我希望利用Transformer构建新产品，这是我离开谷歌的重要原因之一。”

07.聚则为Transformer，散则成人工智能宇宙

如今，八人团队仍然时常联系。他们不仅共同庆祝彼此的成功，也会在成为初创企业家时尽可能互相扶持，渡过各种难关。

如果说Transformer的发布是那个“大爆炸（big bang）”时刻，那么现在，属于它的宇宙已经展开。绝大部分大语言模型都是以Transformer为基础架构，包括AlphaFold、ChatGPT等等。

▲图为Attention Is All You Need论文八位作者署名示意

这也导致了硅谷业内人士称之为“技术过剩”（technology overhang）的时期——即使研究没有取得任何进展，各行业也会花费时间将最新的人工智能技术应用到产品中。

“人们已经感受到了Transformer的深刻影响，人工智能吸引了海量研究人员、技术专家和产品人员进入这一领域。现在，我们认为人工智能技术已经过剩，这一技术可以应用于各种产品中，并实现不同的价值。”Vaswani说：“在某种程度上，这也是我们八人团队分散于不同领域，试图让人类真正用上人工智能产品的原因。”

08.结语：人工智能领域正在野蛮生长

Transformer八人团队因一个初始想法而相聚，进而发挥各自专长，共同发布Transformer架构。此后，八个人依照各自兴趣，相继离开谷歌，并创立了聚焦于不同领域的人工智能创企。当初的星星之火，现在早已燎原。仅以2023年上半年的融资情况来看，人工智能企业的相关融资可以说在经济下行时期展现出逆势上扬的态势。国内外均对人工智能领域保持高度关注，相继发布各类政策与文件。未来人工智能技术，或将应用于人类生活的各个方面。关于人工智能企业的各类动态，我们也将持续关注。

目标检测中的Transformer-DETR

介绍 Transformer 在目标检测中的经典算法：DETR。

首先看下DETR的检测效果：

1. 资源

更多CV和NLP中的transformer模型(BERT、ERNIE、ViT、DeiT、Swin Transformer等)、深度学习资料，请参考：awesome-DeepLearning
更多检测模型(Yolo系列、PPYolo等)，请参考：PaddleDetection

2. DETR算法综述

论文地址：End-to-End Object Detection with Transformers

DETR即Detection Transformer，是Facebook AI 的研究者提出的 Transformer 的视觉版本，可以用于目标检测，也可以用于全景分割。这是第一个将 Transformer成功整合为检测pipeline中心构建块的目标检测框架。与之前的目标检测方法相比，DETR有效地消除了对许多手工设计的组件的需求，例如非最大抑制(Non-Maximum Suppression,,NMS)程序、锚点(Anchor)生成等。

这篇文章提出了一个非常简单的端到端的框架，DETR 的网络结构很简单，分为三个部分，第一部分是一个传统 CNN 用于提取图片特征到更高维度，第二部分一个Transformer 的 Encoder 和 Decoder 来提取 Bounding Box，最后使用 Bipartite matching loss 来训练网络。

图1 DETR网络结构

3. 数据

3.1 COCO数据集

COCO的全称是Common Objects in COntext，是微软团队提供的一个可以用来进行图像识别的数据集。COCO通过在Flickr上搜索80个对象类别和各种场景类型来收集图像，其使用了亚马逊的Mechanical Turk（AMT）。

COCO数据集现在有3种标注类型：object instances（目标实例）, object keypoints（关键点/目标检测）, 和image captions（看图说话），如下图所示：

图2 COCO数据集标注类型示例

In [1]

%cd work/DETR/

/home/aistudio/work/DETR

首先解压数据集，执行如下代码即可，解压执行一次就可以。

In [ ]

!mkdir /home/aistudio/dataset

!unzip -q -o /home/aistudio/data/data7122/train2017.zip -d /home/aistudio/dataset

!unzip -q -o /home/aistudio/data/data7122/val2017.zip -d /home/aistudio/dataset

!unzip -q -o /home/aistudio/data/data7122/annotations_trainval2017.zip -d /home/aistudio/dataset

print('完整数据集解压完毕！')

解压之后，完整COCO数据存储结构：

｜-- coco

｜-- annotations：标注文件

|-- person_keypoints_train2017.json：关键点检测

|-- person_keypoints_val2017.json

|-- captions_train2017.json：看图说话

|-- captions_val2017.json

|-- instances_train2017.json：目标实例

|-- instances_val2017.json

｜-- images：图片

|-- train2017

|-- val2017

参考文献链接

https://mp.weixin.qq.com/s/o9vx0ebNgXHy48VKikdE7w

https://aistudio.baidu.com/projectdetail/2290729?ad-from=1612

posted @ 2023-08-22 06:47 吴建明wujianming 阅读(198) 评论(0) 编辑收藏举报

刷新页面返回顶部

吴建明

Transformer历史揭秘及Transformer-DETR

Transformer历史揭秘及Transformer-DETR

目标检测中的Transformer-DETR

公告