浅析AI入门核心概念（什么是AIGC、多模态、RAG、Function Call、Agent、MCP）及其各自解决什么问题与相互之间配合关系

　　总览图

┌─────────────────────────────────────────────────────────────┐
│                      AI 能力金字塔                            │
├─────────────────────────────────────────────────────────────┤
│                        ┌───────┐                            │
│                        │ Agent │  ← 自主干活                 │
│                      ┌─┴───────┴─┐                          │
│                      │    MCP    │  ← 连接外部工具           │
│                    ┌─┴───────────┴─┐                        │
│                    │ Function Call │  ← 调用工具             │
│                  ┌─┴───────────────┴─┐                      │
│                  │       RAG         │  ← 检索知识           │
│                ┌─┴───────────────────┴─┐                    │
│                │       多模态          │  ← 看图听声          │
│              ┌─┴───────────────────────┴─┐                  │
│              │          AIGC             │  ← 生成内容        │
│              └───────────────────────────┘                  │
└─────────────────────────────────────────────────────────────┘

一、AIGC（AI 生成内容）

　　一句话：AIGC = AI Generated Content = AI 生成的内容

　　通俗理解

以前：人写文章、人画画、人作曲
现在：AI 写文章、AI 画画、AI 作曲
AIGC 就是"AI 创作的东西"

　　类比

AIGC = AI 版的"创作工具箱"
以前：Word + PS + PR + 作曲软件 → 人来操作
现在：告诉 AI 你想要什么 → AI 直接生成

二、多模态（Multimodal）

　　一句话：多模态 = AI 能同时处理多种类型的信息（文字、图片、声音、视频）

　　通俗理解

单模态 AI：只会"看"文字
多模态 AI：能"看"文字 + "看"图片 + "听"声音
就像人一样，眼耳鼻舌身都能用

　　举例

【单模态对话】
你：这张图片里有什么？
AI：抱歉，我看不了图片...

【多模态对话】
你：[发送一张猫的照片] 这是什么？
AI：这是一只橘猫，看起来很胖，正在沙发上睡觉。

　　常见多模态能力

┌────────────┬────────────────────────────┐
│   输入     │          能力               │
├────────────┼────────────────────────────┤
│   文字     │ 理解、生成文本                │
│   图片     │ 看图说话、图片分析             │
│   语音     │ 听懂说话、语音转文字           │
│   视频     │ 理解视频内容                  │
│   文件     │ 读取 PDF、Word 等            │
└────────────┴────────────────────────────┘

　　类比

单模态 = 只会看书的人
多模态 = 能看、能听、能说的正常人

三、RAG（检索增强生成）

　　一句话：RAG = Retrieval-Augmented Generation = 先查资料，再回答

　　通俗理解

普通 AI：凭记忆回答（可能过时、可能瞎编）
RAG AI：先查资料库，再根据资料回答

就像开卷考试 vs 闭卷考试

　　工作流程

┌─────────────────────────────────────────────────┐
│                  RAG 流程                        │
├─────────────────────────────────────────────────┤
│  用户问："公司的报销流程是什么？"                    │
│                    ↓                            │
│  ① 检索：从知识库搜索相关文档                       │
│     → 找到《员工报销制度.pdf》                      │
│                    ↓                            │
│  ② 增强：把文档内容 + 问题一起给 AI                 │
│                    ↓                            │
│  ③ 生成：AI 根据文档内容回答                       │
│     → "根据公司制度，报销流程是..."                 │
└─────────────────────────────────────────────────┘

　　为什么需要 RAG？

❌ 没有 RAG：
   "最新的 iPhone 多少钱？"
   AI："我的知识截止到 2023 年..." （过时）

✅ 有了 RAG：
   "最新的 iPhone 多少钱？"
   AI：（先查苹果官网）"iPhone 16 Pro 售价 7999 元起"

四、Function Call（函数调用）

　　一句话：Function Call = 让 AI 能调用外部工具/函数

　　通俗理解

普通 AI：只能说，不能做
Function Call：能说，还能做
AI 从"嘴强王者"变成"能干活的人"

　　工作流程

┌─────────────────────────────────────────────────┐
│              Function Call 流程                  │
├─────────────────────────────────────────────────┤
│  用户："北京今天天气怎么样？"                       │
│                    ↓                            │
│  AI 判断：需要查天气 → 调用 get_weather 函数        │
│                    ↓                            │
│  你的代码：执行 get_weather("北京")                │
│           → 返回：15°C，晴                        │
│                    ↓                            │
│  AI 回答："北京今天 15°C，天气晴朗"                 │
└─────────────────────────────────────────────────┘

　　关键点：

AI 做什么：理解需求 → 决定调用什么函数 → 提取参数
你的代码做什么：真正执行函数 → 返回结果给 AI

　　类比

普通 AI = 只会说"你应该查天气"的顾问
Function Call = 能帮你查天气并告诉你结果的助手

五、Agent（智能体）

　　一句话：Agent = 能自主规划、自主执行任务的 AI

　　通俗理解

普通 AI：你问一句，它答一句
Agent：你给个目标，它自己规划步骤、自己执行、自己检验

　　区别

【普通 AI 对话】
你：帮我分析竞品
AI：好的，请告诉我要分析什么？
你：先搜索竞品信息
AI：（搜索结果）
你：然后整理成表格
AI：（表格）
你：再生成报告
AI：（报告）
→ 每一步都要你指挥

【Agent 模式】
你：帮我分析竞品，生成报告
Agent：
  1. 规划：需要搜索→整理→分析→生成报告
  2. 执行：自动搜索竞品信息
  3. 执行：自动整理成结构化数据
  4. 执行：自动分析对比
  5. 执行：自动生成报告
  6. 完成：这是您的竞品分析报告
→ 自己规划、自己干

　　Agent 的核心能力

┌─────────────────────────────────────────────────┐
│                 Agent 能力                       │
├─────────────────────────────────────────────────┤
│  🧠 规划：把大任务拆成小步骤                        │
│  🔧 执行：调用工具完成每个步骤                      │
│  🔄 反思：检查结果，不对就重试                      │
│  💾 记忆：记住上下文和历史                          │
└─────────────────────────────────────────────────┘

六、MCP（模型上下文协议）

　　一句话：MCP = AI 调用外部工具的统一标准

　　通俗理解

没有 MCP：每个工具接口不同，AI 要单独适配
有了 MCP：统一接口标准，接入即用

就像 USB 统一了设备接口

　　MCP vs Function Call

Function Call = AI 调用工具的能力
MCP = 工具怎么暴露给 AI 的标准

Function Call 是"能力"
MCP 是"规范"

七、总结对比表

概念	一句话	解决什么问题	类比
AIGC	AI 生成内容	创作效率	AI 画家/作家
多模态	处理多种信息	只能看文字 → 能看图听声	五官齐全的人
RAG	先查后答	知识过时/瞎编	开卷考试
Function Call	调用工具	只能说 → 能干活	有手有脚
Agent	自主完成任务	每步都要指挥 → 自己规划执行	独立员工
MCP	工具调用标准	接口不统一	USB 标准

八、关系图

┌─────────────────────────────────────────────────────────────┐
│   AIGC ──────── AI 的基础能力，能生成内容                       │
│     ↓                                                       │
│   多模态 ────── 扩展输入输出，不只是文字                         │
│     ↓                                                       │
│   RAG ──────── 增强知识，能查资料再回答                         │
│     ↓                                                       │
│   Function Call ── 能调用工具，从说到做                        │
│     ↓                                                       │
│   MCP ──────── 标准化工具调用接口                              │
│     ↓                                                       │
│   Agent ────── 自主规划执行，真正的 AI 助手                     │
└─────────────────────────────────────────────────────────────┘

posted @ 2017-09-19 20:22 古兰精阅读(464) 评论(0) 收藏举报

刷新页面返回顶部

古兰精

浅析AI入门核心概念（什么是AIGC、多模态、RAG、Function Call、Agent、MCP）及其各自解决什么问题与相互之间配合关系

公告