浅析AI入门核心概念(什么是AIGC、多模态、RAG、Function Call、Agent、MCP)及其各自解决什么问题与相互之间配合关系
总览图
┌─────────────────────────────────────────────────────────────┐
│ AI 能力金字塔 │
├─────────────────────────────────────────────────────────────┤
│ ┌───────┐ │
│ │ Agent │ ← 自主干活 │
│ ┌─┴───────┴─┐ │
│ │ MCP │ ← 连接外部工具 │
│ ┌─┴───────────┴─┐ │
│ │ Function Call │ ← 调用工具 │
│ ┌─┴───────────────┴─┐ │
│ │ RAG │ ← 检索知识 │
│ ┌─┴───────────────────┴─┐ │
│ │ 多模态 │ ← 看图听声 │
│ ┌─┴───────────────────────┴─┐ │
│ │ AIGC │ ← 生成内容 │
│ └───────────────────────────┘ │
└─────────────────────────────────────────────────────────────┘
一、AIGC(AI 生成内容)
一句话:AIGC = AI Generated Content = AI 生成的内容
通俗理解
以前:人写文章、人画画、人作曲
现在:AI 写文章、AI 画画、AI 作曲
AIGC 就是"AI 创作的东西"
类比
AIGC = AI 版的"创作工具箱"
以前:Word + PS + PR + 作曲软件 → 人来操作
现在:告诉 AI 你想要什么 → AI 直接生成
二、多模态(Multimodal)
一句话:多模态 = AI 能同时处理多种类型的信息(文字、图片、声音、视频)
通俗理解
单模态 AI:只会"看"文字
多模态 AI:能"看"文字 + "看"图片 + "听"声音
就像人一样,眼耳鼻舌身都能用
举例
【单模态对话】
你:这张图片里有什么?
AI:抱歉,我看不了图片...
【多模态对话】
你:[发送一张猫的照片] 这是什么?
AI:这是一只橘猫,看起来很胖,正在沙发上睡觉。
常见多模态能力
┌────────────┬────────────────────────────┐
│ 输入 │ 能力 │
├────────────┼────────────────────────────┤
│ 文字 │ 理解、生成文本 │
│ 图片 │ 看图说话、图片分析 │
│ 语音 │ 听懂说话、语音转文字 │
│ 视频 │ 理解视频内容 │
│ 文件 │ 读取 PDF、Word 等 │
└────────────┴────────────────────────────┘
类比
单模态 = 只会看书的人
多模态 = 能看、能听、能说的正常人
三、RAG(检索增强生成)
一句话:RAG = Retrieval-Augmented Generation = 先查资料,再回答
通俗理解
普通 AI:凭记忆回答(可能过时、可能瞎编)
RAG AI:先查资料库,再根据资料回答
就像开卷考试 vs 闭卷考试
工作流程
┌─────────────────────────────────────────────────┐
│ RAG 流程 │
├─────────────────────────────────────────────────┤
│ 用户问:"公司的报销流程是什么?" │
│ ↓ │
│ ① 检索:从知识库搜索相关文档 │
│ → 找到《员工报销制度.pdf》 │
│ ↓ │
│ ② 增强:把文档内容 + 问题一起给 AI │
│ ↓ │
│ ③ 生成:AI 根据文档内容回答 │
│ → "根据公司制度,报销流程是..." │
└─────────────────────────────────────────────────┘
为什么需要 RAG?
❌ 没有 RAG:
"最新的 iPhone 多少钱?"
AI:"我的知识截止到 2023 年..." (过时)
✅ 有了 RAG:
"最新的 iPhone 多少钱?"
AI:(先查苹果官网)"iPhone 16 Pro 售价 7999 元起"
四、Function Call(函数调用)
一句话:Function Call = 让 AI 能调用外部工具/函数
通俗理解
普通 AI:只能说,不能做
Function Call:能说,还能做
AI 从"嘴强王者"变成"能干活的人"
工作流程
┌─────────────────────────────────────────────────┐
│ Function Call 流程 │
├─────────────────────────────────────────────────┤
│ 用户:"北京今天天气怎么样?" │
│ ↓ │
│ AI 判断:需要查天气 → 调用 get_weather 函数 │
│ ↓ │
│ 你的代码:执行 get_weather("北京") │
│ → 返回:15°C,晴 │
│ ↓ │
│ AI 回答:"北京今天 15°C,天气晴朗" │
└─────────────────────────────────────────────────┘
关键点:
AI 做什么:理解需求 → 决定调用什么函数 → 提取参数
你的代码做什么:真正执行函数 → 返回结果给 AI
类比
普通 AI = 只会说"你应该查天气"的顾问
Function Call = 能帮你查天气并告诉你结果的助手
五、Agent(智能体)
一句话:Agent = 能自主规划、自主执行任务的 AI
通俗理解
普通 AI:你问一句,它答一句
Agent:你给个目标,它自己规划步骤、自己执行、自己检验
区别
【普通 AI 对话】
你:帮我分析竞品
AI:好的,请告诉我要分析什么?
你:先搜索竞品信息
AI:(搜索结果)
你:然后整理成表格
AI:(表格)
你:再生成报告
AI:(报告)
→ 每一步都要你指挥
【Agent 模式】
你:帮我分析竞品,生成报告
Agent:
1. 规划:需要搜索→整理→分析→生成报告
2. 执行:自动搜索竞品信息
3. 执行:自动整理成结构化数据
4. 执行:自动分析对比
5. 执行:自动生成报告
6. 完成:这是您的竞品分析报告
→ 自己规划、自己干
Agent 的核心能力
┌─────────────────────────────────────────────────┐
│ Agent 能力 │
├─────────────────────────────────────────────────┤
│ 🧠 规划:把大任务拆成小步骤 │
│ 🔧 执行:调用工具完成每个步骤 │
│ 🔄 反思:检查结果,不对就重试 │
│ 💾 记忆:记住上下文和历史 │
└─────────────────────────────────────────────────┘
六、MCP(模型上下文协议)
一句话:MCP = AI 调用外部工具的统一标准
通俗理解
没有 MCP:每个工具接口不同,AI 要单独适配
有了 MCP:统一接口标准,接入即用
就像 USB 统一了设备接口
MCP vs Function Call
Function Call = AI 调用工具的能力
MCP = 工具怎么暴露给 AI 的标准
Function Call 是"能力"
MCP 是"规范"
七、总结对比表
| 概念 | 一句话 | 解决什么问题 | 类比 |
|---|---|---|---|
| AIGC | AI 生成内容 | 创作效率 | AI 画家/作家 |
| 多模态 | 处理多种信息 | 只能看文字 → 能看图听声 | 五官齐全的人 |
| RAG | 先查后答 | 知识过时/瞎编 | 开卷考试 |
| Function Call | 调用工具 | 只能说 → 能干活 | 有手有脚 |
| Agent | 自主完成任务 | 每步都要指挥 → 自己规划执行 | 独立员工 |
| MCP | 工具调用标准 | 接口不统一 | USB 标准 |
八、关系图
┌─────────────────────────────────────────────────────────────┐
│ AIGC ──────── AI 的基础能力,能生成内容 │
│ ↓ │
│ 多模态 ────── 扩展输入输出,不只是文字 │
│ ↓ │
│ RAG ──────── 增强知识,能查资料再回答 │
│ ↓ │
│ Function Call ── 能调用工具,从说到做 │
│ ↓ │
│ MCP ──────── 标准化工具调用接口 │
│ ↓ │
│ Agent ────── 自主规划执行,真正的 AI 助手 │
└─────────────────────────────────────────────────────────────┘

浙公网安备 33010602011771号