大模型应用开发课|大模型时代开发者新机遇 学习笔记本ing...
大模型是什么? 大模型能做什么?
LLM (largelanguage model)是大型语言模型是指由神经网络组成的语言模型,通常包含数十亿个或更多的参数,是使用自监督学习或半监督学习来训练大量未标记的文本所得。
大模型与我们有什么关系?
对搜索引擎的颠覆?
2022年11月30日,OpenAI发布了ChatGPT。短短3个月,月活用户达1亿,日活1300万。
人机交互,开启自然语言交互新时代
作为一个巨大的增量新市场,会彻底改变很多领域的市场和产业格局>底层基础设施一框架一大模型(PromptEngineering)应用应用层:跨领域的水平化扩展,原有领域知识带来的会被打破,将有机会打通不同领域的水平化应用
LLM的原理
为什么过去持续Scale,未来还会持续大幅Scale吗?
GPT-3发布及生态成型期间(2020-2022)OpenAI一直没有推出下一代模型,而是开始重点研究Alignment(对齐)问题。
参考OpenAI发表关于InstructGPT论文:,分为如下的三步
# 参考图片来自:
ChatGPT是如何训练得到的?通俗讲解 - 知乎 (zhihu.com)
LLM应用开发范式
LLM应用开发范式-- AutoGPT
自主AI代理的核心特征是能够自主拆分任务,并自动执行子任务,循环运行直到任务被解决。
AutoGPT、BabyAGI和Jarvis的GitHub star走势,增长曲线相对于Langchain仍然是接近垂直的!
Agent工作流程分为如下四个阶段任务规划 ->API筛选/分配->任务执行->结果输出
LLM应用开发范式-- Plugins
大模型本身,提供了自然语言理解、推理和生成能力,包含了知识和常识。但是,它有几大局限:
- 没有时效数据。
- 没有私有数据
- 不能保证精准度
- 不能利用外部的工具。比如,用计算器来算sin(x)。
plugins和Copilot展示了目前AI与应用结合的两种范式:。
- 轻上下文轻交互的应用,通过Plugins整合
- 而重上下文、重交互、流程复杂的应用,可以通过.Copilot的方式将AI能力整合进其自身应用
LLM应用开发栈
GPT-1、GPT-2的研究工作
GPT-2论文中,GPT展示出了零样本(zero-shot)的多任务能力。
- 而奇妙的是,这些多任务的能力并不是显式地、人为地加入到训练数据中的
- 当然,在那个时间点上,生成式的技术路径依然面临风险和挑战
GPT-3的研究工作
1750亿参数量的GPT-3,[在上下文中学习] (in contextlearning)的能力
大模型能力能用到哪些场景?
范式转换1.0:从深度学习到两阶段预训练模型
大多数NLP子领域的研发模式切换到了两阶段模式:模型预训练阶段+应用微调(Fine-tuning),或应用Zero /Few Shot Prompt模式
范式转换20:从预训练模型走向通用人工智能
通用人工智能(AGl,Artificial GeneralIntelligence)
GPT-4 – Alan D. Thompson博士 – 生活建筑师 (lifearchitect.ai)
大模型能力涌现
目前有两大类被认为具有涌现能力的任务
- 第一类是In ContextLearning
- 第二类具备涌现现象的技术是思维链(COT)
就In Context Learming而言,如果模型达到100B,大多数任务可以具备涌现能力。对于CoT来说,结论也是类似的,就是说要想出现涌现能力,模型规模大小和具体任务有一定的绑定关系。
通向AGI之路,两个范式总览
随着模型的规模越来越大,训练付出的成本开始呈现指数型增长;
模型性能的提升也已经逐渐到达瓶颈期,哪怕想要让误差再下降1%,都需要更多的数据集增量和计算增量
两个范式的分界点:GPT3.0出现之前
大模型催生的新型应用
以游戏NPC角色生成应用为例
使用LLM能力实现角色自定义:
通过描述角色/场景/常识的prompt来设定角色的个性和认知
功能拓展和集成:
为游戏公司提供相应的 SDK实现角色与场景集成
传统应用如何利用大模型能力更新换代
语言学习平台→AI外语陪练
过去:语言学习平台
提供语言学习的课程、听说读写练习
大模型时代:AI外语陪练
个性化分析讨论、角色扮演的即兴对话