大语言模型(LLM)
大语言模型 LLM
人工智能 Artificial Intelligence
一门研究如何使计算机能够模拟和执行人类智能任务的科学和技术领域
是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工:计算机来模拟人
智能:人的某些思维过程和智能行为(如学习、推理、思考、规划等)
AGI(通用人工智能 Artificial General Intelligence)
是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。
AGI的目标是创建一个全面智能的系统,可以解决广泛的问题并进行多种任务。这种系统能够在不同的环境中适应和学习,并且可以从不同的来源中获取信息,像人类一样进行推理和决策。
亦被称为强 AI,该术语指的是在任何你可以想象的人类的专 业领域内,具备相当于人类智慧程度的 AI,一个 AGI 可以执行任何人类可以完成的智力任务。
大语言模型 Large Language Model
也称大型语言模型,是一种人工智能模型。
旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。
LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。
大语言模型可以做什么?
以下是 LLM 为组织带来益处的一些最重要的领域:
-
文本生成:语言生成能力,如根据提示撰写电子邮件、博客文章或其他中长篇内容,并加以提炼和润色。
-
内容摘要:将长文章、新闻报道、研究报告、公司文档甚至客户历史记录汇总成根据输出格式定制长度的完整文本。
-
AI 助手:聊天机器人,可以回答客户询问、执行后端任务并以自然语言提供详细信息,作为集成式自助客户服务解决方案的一部分。
-
代码生成:帮助开发人员构建应用程序,查找代码中的错误并发现多种编程语言中的安全问题,甚至在它们之间进行“翻译”。
-
情感分析:分析文本,确定客户的语气,以便大规模了解客户反馈并帮助进行品牌声誉管理。
-
语言翻译:通过流畅的翻译和多语言功能,为各语言和地域的组织提供更广泛的覆盖范围。
常见大语言模型
国外
Chatgpt(OpenAI)
-
Our vision for the future of AGI:
Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity. -
History:
OpenAI 成立于2015年,其使命是“确保人工智能的发展能够造福所有人类,而不受少数人或机构的控制”。
2018 年 6 月 OpenAI 发布 GPT-1 模型,1.1亿参数。
2018 年 11 月 OpenAI 发布 GPT-2 模型,15亿参数。
2019 年 6 月 10 日 OpenAI 发布 GPT-3 模型,1750亿参数,并向部分合作伙伴提供了访问权限。
2019 年 9 月 OpenAI 开放了 GPT-2 的全部代码和数据,并发布了更大版本。
2020 年 5 月 OpenAI 宣布推出 GPT-3 模型的beta版本,该模型拥有1750亿个参数,是迄今为止最大的自然语言处理模型。
2022 年 11 月 30 日 OpenAI 通过 GPT-3.5 系列大型语音模型微调而成的,全新对话式AI模型 ChatGPT 正式发布。
2023 年 3 月 15 日 OpenAI 震撼推出了大型多模态模型 GPT-4,不仅能够阅读文字,还能识别图像,并生成文本结果,现已接入 ChatGPT 向Plus用户开放。
-
How to use
-
2023 年 3 月 20 日开始,OpenAI 开始大面积封号,禁止使用亚洲节点登录。
-
在国内使用 Chatgpt 并不违法。只是 ChatGPT 屏蔽中国用户。
-
Github 镜像仓库。
hello-ai/home/FreeChatGPTSiteList.md at main · xxxily/hello-ai · GitHub
-
国内
文心一言
通义千问
https://tongyi.aliyun.com/qianwen/
蓝心千询
https://developers.vivo.com/product/ai/bluelm
腾讯混元
Kimi Chat
底层实现逻辑
大语言模型的架构和本质实现方法可以通过以下几个关键部分来解释:
1. Transformer 架构
Transformer 是现代大语言模型的核心架构,由 Vaswani 等人在 2017 年提出。它解决了之前序列模型(如 RNN 和 LSTM)在处理长序列数据时的限制。Transformer 架构的核心组件包括:
a. 多头自注意力机制(Multi-Head Self-Attention Mechanism)
- 自注意力:通过自注意力机制,模型可以在处理每个词时,关注序列中其他所有词的信息。自注意力计算每个词与其他词的相关性(注意力分数),并根据这些分数加权求和其他词的表示。
- 多头注意力:将自注意力机制扩展为多头形式,使模型可以在不同的子空间中并行计算注意力。这样可以捕获更多的语义信息。
b. 位置编码(Positional Encoding)
由于 Transformer 不像 RNN 那样逐步处理序列数据,因此需要通过位置编码引入位置信息。位置编码将序列中每个词的位置信息加入其嵌入表示中,使模型能够区分不同位置的词。
c. 前馈神经网络(Feed-Forward Neural Network)
每个 Transformer 层包括一个前馈神经网络(通常由两个全连接层组成),用于进一步处理注意力机制后的输出。
d. 残差连接和层归一化(Residual Connections and Layer Normalization)
每个子层(如自注意力和前馈网络)后都有残差连接和层归一化,使得训练更深层次的网络成为可能,并加速收敛。
2. 编码器-解码器结构(Encoder-Decoder Architecture)
经典的 Transformer 由编码器和解码器两部分组成,尤其在序列到序列任务(如机器翻译)中非常有效。
a. 编码器
编码器由一系列堆叠的 Transformer 层组成,每一层包括自注意力机制和前馈神经网络。编码器将输入序列转换为一组高维度的上下文向量。
b. 解码器
解码器也由一系列堆叠的 Transformer 层组成,每一层包括自注意力机制、编码器-解码器注意力机制和前馈神经网络。解码器接收编码器的上下文向量和先前生成的输出,逐步生成目标序列。
3. 预训练与微调(Pre-training and Fine-tuning)
大语言模型通常经历两个阶段:预训练和微调。
a. 预训练
在大规模未标注文本数据上进行预训练,通常使用自回归(如 GPT)或自编码(如 BERT)任务。预训练使模型学习广泛的语言表示。
- 自回归模型(如 GPT):通过预测下一个词来进行训练。
- 自编码模型(如 BERT):通过掩码语言模型任务,预测被掩码的词来进行训练。
b. 微调
在特定任务的数据集上进行微调,使模型适应具体的应用场景。微调时,模型保留预训练期间学习到的通用知识,并根据特定任务的数据进行进一步调整。
- ANN:人工神经网络(Artificial Neural Network)
- RNN:循环神经网络(Recurrent Neural Network)
- CNN:卷积神经网络(Convolutional Neural Network)
- GAN:生成对抗网络(Generative Adversarial Network)
- LSTM:长短期记忆(Long Short-Term Memory)
- LLM:大型语言模型(Large Language Model)
- BERT:Bidirectional Encoder Representations from Transformers
- GPT:Generative Pre-trained Transformer
参考链接:
什么是 AGI?(Artificial General Intelligence)通用人工智能的定义和能力 - 知乎 (zhihu.com)
What OpenAI Really Wants | WIRED
[博客速读]OpenAI的目标究竟是什么? - 知乎 (zhihu.com)
全网最全时间线梳理!从ChatGPT的前世今生,到如今AI领域的竞争格局,本文带你一路回看 - 知乎 (zhihu.com)
hello-ai/home/airport.md at main · xxxily/hello-ai · GitHub
科技爱好者周刊(第 259 期):如何免费使用 ChatGPT - 阮一峰的网络日志 (ruanyifeng.com)
hello-ai/home/FreeChatGPTSiteList.md at main · xxxily/hello-ai · GitHub
生成式人工智能服务管理暂行办法_国务院部门文件_中国政府网 (www.gov.cn)
AIGC工具导航 | 生成式AI工具导航平台-全品类AI应用商店!
国内13家大模型和体验地址 - 知乎 (zhihu.com)
https://tongyi.aliyun.com/qianwen/