20年就GPT3+ AlphaFold——21年机器学习的风向

 

2020 年:两大革命性突破

 

虽然人工智能在企业中的应用有所放缓,但今年人工智能研究的重大突破提醒人们,这是一个能够引发指数级变化的技术领域。

 

以 OpenAI 开发的 GPT-3 形式的自然语言处理,有可能成为第一个通用人工智能(artificial general intelligence,AGI)的先驱,这将是一个巨大的进步。

 

GPT-3 基于从互联网上搜集的数据中发现的模式进行“学习”,这些数据包括 Reddit 帖子、Wikipedia、同人小说和其他来源。

 

在这种学习的基础上,GPT-3 无需额外的训练就能完成许多不同的任务,它能够产生引人入胜的叙述,生成计算机代码自动完成图像,不同语言之间的翻译,以及数学计算,还有其他一些壮举,其中包括一些其创造者没有计划过的。

 

这一显而易见的多功能能力不同于所有现有的人工智能能力。事实上,它在功能上更为通用。

 

这个模型拥有1750 亿个参数,远远超过了最先进的神经网络的 100 多亿个参数,也远远超过了其前身 GPT-2 的 15 亿个参数。仅仅一年多的时间,模型的复杂性就提高了 10 倍以上,这可以说是迄今为止创建的最大的神经网络

 

另一个重大进展来自 DeepMind 开发的 AlphaFold,这是一个基于注意力的深度学习神经网络,它可能已经解决了近 50 年来生物学上的一项难题:根据蛋白质的氨基酸序列确定其 3D 形状。

 

蛋白质是生命的基础,负责细胞内部发生的大部分事情。蛋白质的工作原理及其功能取决于其 3D 形状。直到现在,确定蛋白质的结构还很困难,费力,昂贵,并且容易失败。

 

在两年一度的蛋白质结构预测挑战赛(简称 CASP)中,AlphaFold 系统的表现超过了其他大约 100 个团队。对于那些被认为有一定难度的蛋白质目标上,神经网络实现了 90% 的预测准确率,远远超过其他团队;有些人认为这是生物学的圣杯成就。

 

这一进展有望将大大加快对细胞构件的理解,使更快、更先进的药物发现成为可能,并从根本上预示着生物学领域的一场革命,堪比DNA 双螺旋模型和 CRISPR-Cas9 基因组编辑技术。

 

Dan Becker@dan_s_becker):Decision AI 的创始人,此前曾创立 Kaggle Learn。

 

今年的机器学习研究遵循了以下既定的主题:

 

  1. Transformer:GPT-3 是今年所有开发项目中最受关注的项目,它展示了 Transformer 模型的不断发展,该模型经过了大规模语料库的训练。同时,我们还看到了首次成功地将 Transformer 用于计算机视觉方面的实验,而计算机视觉在历史上是由卷积网络主导的。

  2. 生成模型:像 Vid2Player 这样的研究表明,计算机生成的视频的质量水平超出了我们过去所看到的水平。生成式模型的社会影响将是巨大而难以预测的。

  3. 强化学习:我发现,与前几年相比,2020 年人们对强化学习的关注度有所下降。但是在统一政策下,跨任务的迁移学习看起来非常有前途。我预计这在未来几年内的重要性会低于 GPT-3,但在更长的时间范围内,可能会变得重要得多。大多数人并没有意识到,一旦强化学习能够更可靠地工作,它就会产生巨大的影响。

 

2021 年:

 

  1. 概率编程和贝叶斯模型:我们已经看到了很多新的概率编程语言的实验。这让我想起五年前我在深度学习框架中看到的实验。因此,我希望概率编程是 2021 年的一个主要趋势,尽管它也需要对用户进行更多的教育,以利用新工具。

  2. GPT-4:随着越来越多的人使用 GPT-3 进行实验,我想我们会发现它有点不够实用。从最近的趋势推断来看,GPT-4 将会好得多,并有可能越过实际有用的门槛。

  3. 用于结构化数据的 GPU:NVIDIA RAPIDS 团队正在开发数据科学工具,这些工具有望突飞猛进,超越我们在过去十年中所见到的任何一种工具。我的感觉是,这个软件还没有准备好进入黄金时代,但到了 2021 年可能会实现。

  4. AutoML 变得乏味:大多数数据科学家仍在通过临时实验来调整参数。用更多的自动化解决方案只是个时间问题,明年也许就会实现了。

  5. 强化学习变得实际有用:这是我最兴奋的地方。传统的机器学习专注于预测,但很少有数据科学家优化决策层,将这些预测转化为现实世界的业务决策。这造成了模型准确而无用。到 2021 年,我们将会看到思维方式的转变,即在复杂环境中使用模型来做出优化决策。

 

posted @   bonelee  阅读(353)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
历史上的今天:
2019-12-28 pytest-mock mock的高层封装
2019-12-28 python mock使用
2019-12-28 pytest 参数化
2017-12-28 ES shrink ——一般是结合rollover一起使用的,一开始没有看懂官方shrink文档,当看了这个之后就明白了
2017-12-28 高效管理 Elasticsearch 中基于时间的索引——本质是在利用滚动模式做数据的冷热分离,热索引可以用ssd
2017-12-28 elasticsearch indices.recovery 流程分析(索引的_open操作也会触发recovery)——主分片recovery主要是从translog里恢复之前未写完的index,副分片recovery主要是从主分片copy segment和translog来进行恢复
2017-12-28 JS垃圾回收——和其他语言一样,JavaScript 的 GC 策略也无法避免一个问题:GC 时,停止响应其他操作,这是为了安全考虑
点击右上角即可分享
微信分享提示