CV技术大牛何恺明正式加入MIT
CV技术大牛何恺明正式加入MIT
CV大神回归学界,何恺明宣布加入 MIT
根据官宣内容,何恺明将于2024年加入MIT的电子工程和计算机科学系(EECS)。EECS是MIT最大的学术部门,也是世界著名的计算科学和AI研究科系。这里云集了众多计算机科学和AI领域的知名人物,包括MIT App Inventor尝试领导人Hal Abelson等等。
在最近科技公司竞争大模型、AIGC 新增长点的背景下,何恺明选择投身学界研究,做出了一个有引领性的选择。从高考状元到 CV 大神何恺明是我们耳熟能详的 AI 科学家之一,在计算机视觉领域没有人不知道他的大名。2003 年,何恺明以标准分 900 分获得广东省高考总分第一,被清华大学物理系基础科学班录取。在清华物理系基础科学班毕业后,他进入香港中文大学多媒体实验室攻读博士学位,师从汤晓鸥。何恺明曾于 2007 年进入微软亚洲研究院视觉计算组实习,实习导师为孙剑博士。2011 年博士毕业后,何恺明加入微软亚洲研究院工作任研究员。2016 年,何恺明加入 Facebook 人工智能实验室,任研究科学家至今。何恺明的研究曾数次得奖。2009 年,汤晓鸥教授、孙剑博士和当时博士研究生在读的何恺明共同完成的论文《基于暗原色的单一图像去雾技术》拿到了国际计算机视觉顶会 CVPR 的最佳论文奖,也是该会议创办二十五年来首次有亚洲学者获得最高奖项。汤晓鸥与何恺明2016 年,何恺明凭借 ResNet 再获 CVPR 最佳论文奖,此外,他还有一篇论文进入了 CVPR2021 最佳论文的候选。何恺明还因为 Mask R-CNN 获得过 ICCV 2017 的最佳论文(Marr Prize),同时也参与了当年最佳学生论文的研究。根据 Google Scholar 的统计,何恺明一共发表了 73 篇论文,H Index 数据为 67。截至 2023 年 7 月,何恺明的研究引用次数超过 46 万次,并且每年以超过 10 万次的速度增长。这是个什么量级呢?简而言之,他加入 MIT 之后会立刻成为该校论文引用量最高的学者,不限学科,没有之一。恺明发表过的「神作」别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best ......说起恺明大神的作品,最有名的就是 ResNet 了。这篇论文发表于七年前,迄今引用已经超过十七万。
《Deep Residual Learning for Image Recognition》在 2016 年拿下了计算机视觉顶级会议 CVPR 的最佳论文奖。该论文的四位作者何恺明、张祥雨、任少卿和孙剑如今在人工智能领域里都是响当当的名字,当时他们都是微软亚洲研究院的一员。同样是大神级别的学者李沐曾经说过,假设你在使用卷积神经网络,有一半的可能性就是在使用 ResNet 或它的变种。何恺明有关残差网络(ResNet)的论文解决了深度网络的梯度传递问题。
这篇论文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究领域被引用次数最多的论文,并建立了现代深度学习模型的基本组成部分(例如在 Transformers、AlphaGo Zero、AlphaFold 中) )。如今大模型都在使用的 transformer 的编码器和解码器,里面都有源自 ResNet 的残差链接。「在 ResNet 之后就可以有效地训练超过百层的深度神经网络,把网络打得非常深,」在 2023 世界人工智能大会的演讲中,汤晓鸥对何恺明的学术贡献不吝赞美:「何恺明把神经网络做深了,谷歌把神经网络的入口拉大了,又深又大,才成为今天的大模型。」2021 年 11 月,何恺明以一作身份发表论文《Masked Autoencoders Are Scalable Vision Learners》,提出了一种泛化性能良好的计算机视觉识别模型,同样是刚刚发表就成为了计算机视觉圈的热门话题。一个初入 AI 领域的新人,在探索的过程中看到很多重要研究主要作者都是何恺明,经常会不由得感到惊讶。何恺明虽然长期身处业界,但科研态度一直被视为标杆 —— 他每年只产出少量一作文章,但一定会是重量级的,几乎没有例外。我们也经常赞叹于何恺明工作的风格:即使是具有开创性的论文,其内容经常也是简明易读的,他会使用最直观的方式解释自己「简单」的想法,不使用 trick,也没有不必要的证明,有的只是美丽的直觉。如今回归学界,期待恺明能带来更多惊艳之作。
CV大神何恺明加入MIT,即将回归学界
近日,计算机视觉领域的著名科学家何恺明宣布将于 2024 年正式加入麻省理工学院( MIT )电气工程与计算机科学系( EECS ),担任教员。目前,他是 Facebook AI Research( FAIR )的研究科学家。
今年3月,何恺明在 MIT 的一场演讲中,透露了接下来的研究方向会是 AI for science,将聚焦视觉和 NLP 大一统做 self-supervised X+AI。
何恺明的研究涵盖计算机视觉和深度学习的广泛主题。他致力于从计算机视觉问题的角度出发,开发适用于各个领域的通用方法。
目前,他的主要研究重点是构建计算机模型,这些模型能够学习复杂世界的表示并开发复杂世界的智能。他的长期目标是通过更强大的 AI 来增强人类智能。
在计算机视觉和深度学习领域,何恺明发表了一系列极具影响力的论文。他的有关深度残差网络(ResNets)的论文是 2019 年、 2020 年和 2021 年 Google Scholar Metrics 中所有研究领域被引用次数最多的论文,为现代深度学习模型的基本组成部分奠定了基础。
此外,他在视觉对象检测和分割方面的工作,包括 Faster R-CNN 和 Mask R-CNN ,也产生了重大影响,并且是这些领域被引用次数最多的论文之一。在视觉自监督学习方面,他的作品成为了 CVPR 2020 、 2021 和 2022 年发表的高被引论文。
何恺明凭借卓越的研究成果获得了多个社区著名奖项,包括 2018 年 PAMI 青年研究员奖,CVPR 2009、CVPR 2016、ICCV 2017 最佳论文奖,ICCV 2017 最佳学生论文奖,CVPR 2017 最佳论文荣誉奖,以及 ECCV 2018、CVPR 2021、ICCV 2021 的 Everingham 奖。
回顾他的学术之路,何恺明从小就立志上清华,放弃了保送清华大学机械工程及其自动化专业的机会,以满分的高考成绩进入清华大学,并转向基础科学班。
大学期间,他表现出色,连续三年获得清华奖学金。在 2007 年他还未毕业之际,他已经进入了微软亚洲研究院( MSRA )实习,为他未来在计算机视觉领域的杰出贡献奠定了基础。
何恺明和导师汤晓鸥
其中,何恺明的一项关于去雾技术的论文“Single Image Haze Removal Using Dark Channel Prior”获得了 2009 年 CVPR 最佳论文奖,这也是该会议 30 年来首次且唯一一次颁发给亚洲研究学者的奖项。
他的去雾技术不仅可以还原图像的颜色和能见度,还能利用雾的浓度来估计物体的距离,在计算机视觉领域有着重要的应用,例如在三维重建和物体识别中。
2015 年,何恺明提出的深度残差网络( ResNet )成为计算机视觉领域的流行架构,被广泛应用于机器翻译、语音合成、语音识别和 AlphaGo 的研发等领域。他的谷歌学术被引用量已经超过 40 万次,其中引用量最高的单篇论文在 2021 年底突破了 10 万次。
随着何恺明即将加入 MIT,相信他将继续在计算机视觉和深度学习领域取得更多突破性的研究成果,为 AI 的发展做出更大的贡献。
参考文献链接
https://mp.weixin.qq.com/s/cZr4iPT_oBuPsTut7eqB6w
https://mp.weixin.qq.com/s/svzUQeQNgbjhY9eB5iuBiw