大模型应用开发课｜大模型时代开发者新机遇学习笔记本ing...

大模型是什么？大模型能做什么？

LLM (largelanguage model)是大型语言模型是指由神经网络组成的语言模型，通常包含数十亿个或更多的参数，是使用自监督学习或半监督学习来训练大量未标记的文本所得。

大模型与我们有什么关系？

对搜索引擎的颠覆?
2022年11月30日，OpenAI发布了ChatGPT。短短3个月，月活用户达1亿，日活1300万。

人机交互，开启自然语言交互新时代

作为一个巨大的增量新市场，会彻底改变很多领域的市场和产业格局>底层基础设施一框架一大模型(PromptEngineering)应用应用层:跨领域的水平化扩展，原有领域知识带来的会被打破，将有机会打通不同领域的水平化应用

LLM的原理

为什么过去持续Scale，未来还会持续大幅Scale吗?

GPT-3发布及生态成型期间(2020-2022)OpenAI一直没有推出下一代模型，而是开始重点研究Alignment（对齐）问题。

参考OpenAI发表关于InstructGPT论文：，分为如下的三步

# 参考图片来自：
ChatGPT是如何训练得到的？通俗讲解 - 知乎 (zhihu.com)

LLM应用开发范式

LLM应用开发范式-- AutoGPT

自主AI代理的核心特征是能够自主拆分任务，并自动执行子任务，循环运行直到任务被解决。

AutoGPT、BabyAGI和Jarvis的GitHub star走势，增长曲线相对于Langchain仍然是接近垂直的!

Agent工作流程分为如下四个阶段任务规划 ->API筛选/分配->任务执行->结果输出

LLM应用开发范式-- Plugins

大模型本身，提供了自然语言理解、推理和生成能力，包含了知识和常识。但是，它有几大局限:

没有时效数据。
没有私有数据
不能保证精准度
不能利用外部的工具。比如，用计算器来算sin(x)。

plugins和Copilot展示了目前AI与应用结合的两种范式:。

轻上下文轻交互的应用，通过Plugins整合
而重上下文、重交互、流程复杂的应用，可以通过.Copilot的方式将AI能力整合进其自身应用

LLM应用开发栈

GPT-1、GPT-2的研究工作

GPT-2论文中，GPT展示出了零样本(zero-shot)的多任务能力。

而奇妙的是，这些多任务的能力并不是显式地、人为地加入到训练数据中的
当然，在那个时间点上，生成式的技术路径依然面临风险和挑战

GPT-3的研究工作

1750亿参数量的GPT-3，[在上下文中学习] (in contextlearning)的能力

大模型能力能用到哪些场景？

范式转换1.0:从深度学习到两阶段预训练模型

大多数NLP子领域的研发模式切换到了两阶段模式:模型预训练阶段+应用微调(Fine-tuning)，或应用Zero /Few Shot Prompt模式

范式转换20:从预训练模型走向通用人工智能
通用人工智能(AGl，Artificial GeneralIntelligence)

GPT-4 – Alan D. Thompson博士 – 生活建筑师 (lifearchitect.ai)

大模型能力涌现

目前有两大类被认为具有涌现能力的任务

第一类是In ContextLearning
第二类具备涌现现象的技术是思维链(COT)

就In Context Learming而言，如果模型达到100B，大多数任务可以具备涌现能力。对于CoT来说，结论也是类似的，就是说要想出现涌现能力，模型规模大小和具体任务有一定的绑定关系。

通向AGI之路，两个范式总览

随着模型的规模越来越大，训练付出的成本开始呈现指数型增长；

模型性能的提升也已经逐渐到达瓶颈期，哪怕想要让误差再下降1%，都需要更多的数据集增量和计算增量

两个范式的分界点：GPT3.0出现之前

大模型催生的新型应用

以游戏NPC角色生成应用为例

Inworld – AI 角色的开发者平台

使用LLM能力实现角色自定义:

通过描述角色/场景/常识的prompt来设定角色的个性和认知

功能拓展和集成:
为游戏公司提供相应的 SDK实现角色与场景集成

传统应用如何利用大模型能力更新换代

语言学习平台→AI外语陪练

过去：语言学习平台

提供语言学习的课程、听说读写练习

大模型时代：AI外语陪练

个性化分析讨论、角色扮演的即兴对话

posted @ 2023-05-24 10:12 Cong0ks 阅读(494) 评论(0) 收藏举报

刷新页面返回顶部