【转载】人人都能看懂的大模型原理(一)

前言

当前大模型的学习资源呈现爆发趋势,各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点:只摆事实而不讲道理;只讲应用可能而不提实现代价;只讲可能性而缺乏实操经验分享;洞察材料比比皆是而缺乏深入分析。当然,大模型的技术体系非常庞大,全面了解非常困难。从横向来看,涉及到语言大模型到多模态大模型;从纵向来看,又涉及算法、模型、分布式软件、集群等专业知识。作者认识到社区缺乏一些学习资料,能够将复杂问题简单化,并且不失深度地介绍大模型的基本原理和技术。本文尝试对大模型的机器学习原理进行统一,并且绕过复杂的公式化表达和推导,给读者深入浅出的理论解释,帮助读者拨开大模型神秘面纱。作者认为只有深刻理解了理论原理,才能应对千变万化的应用需求。本文章适合各个角色的人阅读,包括BD、SA、PLM、研发和各层管理者。

在进入正文之前,我先给出大模型基本概念和理论体系的一个思维导图,方便大家按图索骥去阅读。本文将作为一个系列文章进行连载在前言部分先给出目录结构。

要特别感谢杨乐(y00568692)博士对本文的审阅和修订。

 

图1.1 大模型理论体系思维导图

 

目录

一、大模型的外在表现和现实意义

1.1 泛化性和边际成本问题

1.2 传统降低边际成本方案

1.2.1 ModelArts Pro工作流

1.2.2 ModelArts数据回流和主动学习

1.2.3 半监督学习

1.3 大模型的智能涌现

1.3.1 Few Shot或Zero Shot能力的涌现

1.3.2 思维链能力的涌现

1.3.3 创新能力的涌现

1.4 大模型智能涌现能力的现实意义

1.4.1 智能agent,代替人的模型

1.4.2 概念设计

1.4.3 超级人机接口和互联网流量入口

二、自然语言的自解释性和自监督学习方法

2.1 自然语言的自解释性

2.2 自然语言系统

2.3自然语言自监督学习的代理任务

2.4 视觉大模型的代理任务是否存在

2.5跨模态大模型的代理任务

 

三、 多头注意力算子

3.1 self-attention理论

3.2 编码器解码器是什么

 

四、 AIGC可控生成原理

4.1 图像的语义是什么

4.2 图像语义的学习和不可控生成

4.3 图像的可控生成

4.4 语言的可控生成

4.5 数据飞轮

 

五、 组合创新理论

(以下内容待续)

 

六、 算子演进的理论背景

6.1 局部线性性假设

6.2 马尔科夫假设

6.3 self-attention假设

七、大模型解决方案开发全流程

7.1 解决方案抽象

7.2 大模型训练的基本步骤

八、应用集成框架简介

九、大模型训练的加速方案

9.1 分布式优化

9.2 内存优化

9.3 组网与通信

十、大模型解决方案技术栈

 

一、大模型的外在表现和现实意义

1.1 泛化性和边际成本问题

最近几年,大模型甚嚣尘上。特别是自ChatGPT推出之后,大街小巷都在讨论大模型。那么大模型为什么吸引了如此多的注意力呢?大模型到底解决什么什么现实问题?人类经历了第一波深度学习热潮和退潮之后,体会到第一波深度学习解决问题的严重问题。并且在大模型身上看到了问题彻底解决的曙光。自深度学习爆发以来,大模型进入了千行百业。从最早的监控和泛娱乐行业,到后来的工业生产,深度学习技术都和行业紧密结合。本文作者自己经历了整个过程,从刚进公司部门200人到现在的2000人,作者经历了AI进入千行百业的完整过程。

图1.2 AI进入千百行业

然而,AI进入千行百业过程中出现了一个严重违背商业逻辑的现象。那就是边际成本没有随着规模的增长而降低。一个合理的商业scale law是一次投入,千万次复制,最终边际成本趋向于零。然而,由于上一波AI浪潮中,深度学习表现出非常差的泛化性,导致只要切换一个场景,都需要研发人员参与定制。比如最常见的人脸识别技术,手机认证的人脸识别模型和监控的人脸识别模型无法通用。甚至一些场景由于背光或者逆光问题,都将重新开发模型。在工业领域,这种现象就更加明显,在工业检测中,摄像机安装角度的改变,或者检测目标的改变,都需要重新定制模型。这就导致你无法做一个通用模型,然后无限推广。因此上一波AI技术浪潮中,大多数创业公司盈利都非常困难,除了少数在大场景下获得足够市场空间的几家公司成功上市以外,绝大多数AI创业公司都很难长大。如此之下,AI进入千行百业就变成一句空话了,因为并非所有的行业都有高额利润。那些低利润行业(农业、低端制造业)都无法享受AI的红利。当然,小模型的泛化性差的原因有很多,比如信号的变化太多,信号模式挖掘不够充分等等,作者在此不再分析。

大模型因为其巨大的学习量天生具备更加优良的泛化性。这让大家看到了解决模型泛化性,甚至达到通用人工智能(AGI)的曙光。当然,这也吸引了无数的资本。

1.2 传统降低边际成本方案

        在讲大模型是如何提升泛化性之前,我们不妨回顾一下过去几年,我们降低边际成本的一些方案。这些方案从一定程度上降低边际成本,但是泛化性明显还是不足。

1.2.1 ModelArts Pro工作流

        在传统AI模型开发过程中,模型泛化性太差,导致需要不断进行迭代优化。并且切换一个相似的任务,也需要重新开发一次。效率非常低下。比如OCR任务需要解决非常多不同种类的表单的识别。而小模型又无法进行通用识别。因此需要反复开发模型应对各种发票、身份证、驾驶证等等。但是我们发现,其实每一次迭代或者相似任务的重新开发,流程都差不多。基本上表现为收集数据、标注、训练、转模型、部署推理引擎。训练部分的流程如图1.3和图1.4所示。

图1.3 Modelarts Pro工作流程及时间分配

推理部分流程和整体时间分配为:

图1.4 Modelarts Pro工作流程及时间分配

如此多重复的劳动,能否借助工具来提升呢。ModelArts Pro的设计理论就源于此。先在平台中内置某一些大类任务的完整训练代码,然后通过工作流的方式暴露部分接口,并自动化运行剩下的部分。ModelArts Pro完整的流程如图1.5所示

图1.5 Modelarts Pro工作全流程

1.2.2 ModelArts数据回流和主动学习

        传统AI开发范式中还有一个特点,就是算法开发者大部分时间都在治理数据,包括数据采集、标注和质量治理。这部分时间占比因任务不同而不同。如遇到数据很稀缺的场景,那么这部分工作就变得非常繁重。为了应对这个问题,ModelArts开发了自动数据回流系统,能够在POC阶段介入用户系统,并快速实现数据的自动收集。配合主动学习策略对数据进行筛选,以获得对模型完备性有利的数据。

1.2.3 半监督学习

        数据标注同样是一项非常繁琐的工作。如果能够减少这部分工作量能够极大加速开发流程。半监督学习是非常有效的解决手段,通过极少数的标注,甚至弱标注,就能够训练一个媲美全监督训练的模型。下图1.6是半监督学习的三大理论方案,在此不再赘述。感兴趣的同学可以在w3搜索费梦娟(f00511872)博士在视频教程。

图1.6 半监督学习理论分支

1.3 大模型的智能涌现

以ChatGPT为代表的大模型引起用户广泛兴趣的重要特点是智能的涌现。过去的模型虽然也有智能的产生,但是没有表现出涌现现象。ChatGPT的智能涌现表现为三方面。

1.3.1 Few Shot或Zero Shot能力的涌现

所谓Few Shot和Zero Shot是指模型不需要学习新样本或者学习少数几个样本,就能学习到新的智能。这种能力让人产生一种误解,认为AI已经达到人的学习能力了,能够举一反三。但是理论上并非如此,我们在后文会慢慢揭晓迷雾。不过抛开理论,大模型的确表现出了这种能力,并且在一定范围内可以被广泛运用。

 

1.3.2 思维链能力的涌现

        思维链能力是大模型最为惊人的表现。所谓思维链是指大模型能够依据思维链针对问题进行分析和推理。最典型表现是可以完成各种考试题目,编写代码,甚至能够针对问题和现象进行因果分析。下图1.8给出一个实际的案例。思维链能力给人一种错觉,觉得AI似乎具备了人的逻辑推理能力。大模型的思维链能够在广泛应用于很多依赖简单推理的场景,比如故障诊断、病例诊断等。并且为了增强思维链,科学家也发明了增强思维链能力的方法。

图1.8 大模型思维链示例

1.3.3 创新能力的涌现

        大模型的创新能力是最早被开发者广泛使用的能力,最早用在营销文案创作、概念图创作等领域。只需要提交简单的提示要求,大模型就能生产极具创意的文案或者图像。下图给出了AI生成的极具创意的例子。这种能力目前已经广泛运用于实际生产中了。我们浏览的大量短视频配音和文案,其实都是用这种技术生成的。你是否意识到了呢?

图1.9 宇航员骑马创意图

虽然我们观测到大模型表现出上述的三种智能能力,但是作者认为我们不能就此下定论大模型具备和人一样的想象能力、推理能力、创造能力。 我们在后文的理论分析部分会逐步揭露这三种智能的本质来源。在第五章末尾,我们会再次回顾大模型的智能涌现。

1.4 大模型智能涌现能力的现实意义

虽然大模型不具备和人类一样的智能,但是基于大模型的目前涌现出来的三种能力,并不妨碍现阶段我们充分使用它们。根据上述三种能力,应用层很容易想到的是如下三种应用。

1.4.1 智能agent,代替人的模型

由于大模型表现出卓越的学习能力和生成能力,因此它完全可以用于代替部分人的模型。人类的很多工作,不需要抽象概念、复杂的推理、决策和创造性,完全只需要记住知识并且运用知识,比如客服、部分视觉设计师、文案写作、健康咨询等职业。这部分工作只需要培训,并记住知识。运用的时候不需要复杂分析和推理决策。只需要运用知识进行回复。他们比较像早期的专家系统或者知识图谱问答系统。这种工作是非常容易被智能agent取代的。并且由于大模型学习能力强,不容易出错,工作表现可能会比人类更优秀。

1.4.2 概念设计

        由于大模型表现出一定的创新能力,因此很容易用于概念设计。实际上在游戏领域这项技术已经被广泛使用了。概念设计是指设计需求不十分明确的时候,反复进行探索性设计和具象化表达的阶段。概念设计是生产环节最为重要也是最耗时的环节。大模型的创造性和生成效率能够帮助设计师提升创意水平,并加速生产效率。

1.4.3 超级人机接口和互联网流量入口

        生成式大模型最直观的表现是能够进行基于自然语言的意图理解,并能够用自然语言给出答案。那么这会不会带来人机接口的突破性进展呢。本文作者认为答案几乎已经非常明确了。并且围绕这种新的人机交互接口,会不会改变现在互联网的平台入口呢。互联网已经从最早的门户网站,演变到搜索引擎,然后发展到最近火爆的推荐系统。大模型是否能够带来新的互联网信息入口的改变呢?如果能做到,那将是互联网产业的又一次洗牌。目前几乎所有的传统互联网大厂都在争夺这个入口,也不乏明星创业公司参与其中。这些风险投资看到的是这种不确定性一旦确定,谁把握住入口,谁就把握住生态。

posted @   bonelee  阅读(1623)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」
历史上的今天:
2021-09-22 wifiphisher实现无线渗透WiFi钓鱼
2021-09-22 Threat Hunting中几个文章——写得较好,待深入
2021-09-22 SQLFlow——除了 Google 的 BigQueryML,微软基于 SQL Server 的 AI 扩展,以及 Teradata 的 SQL for DL 同样旨在连接 SQL 和 AI,让人工智能的应用变得像 SQL 一样简单
2017-09-22 python 统计文件top IP
点击右上角即可分享
微信分享提示