浅析AI入门核心概念(什么是AIGC、多模态、RAG、Function Call、Agent、MCP)及其各自解决什么问题与相互之间配合关系

  总览图

┌─────────────────────────────────────────────────────────────┐
│                      AI 能力金字塔                            │
├─────────────────────────────────────────────────────────────┤
│                        ┌───────┐                            │
│                        │ Agent │  ← 自主干活                 │
│                      ┌─┴───────┴─┐                          │
│                      │    MCP    │  ← 连接外部工具           │
│                    ┌─┴───────────┴─┐                        │
│                    │ Function Call │  ← 调用工具             │
│                  ┌─┴───────────────┴─┐                      │
│                  │       RAG         │  ← 检索知识           │
│                ┌─┴───────────────────┴─┐                    │
│                │       多模态          │  ← 看图听声          │
│              ┌─┴───────────────────────┴─┐                  │
│              │          AIGC             │  ← 生成内容        │
│              └───────────────────────────┘                  │
└─────────────────────────────────────────────────────────────┘

一、AIGC(AI 生成内容)

  一句话:AIGC = AI Generated Content = AI 生成的内容

  通俗理解

以前:人写文章、人画画、人作曲
现在:AI 写文章、AI 画画、AI 作曲
AIGC 就是"AI 创作的东西"

  类比

AIGC = AI 版的"创作工具箱"
以前:Word + PS + PR + 作曲软件 → 人来操作
现在:告诉 AI 你想要什么 → AI 直接生成

二、多模态(Multimodal)

  一句话:多模态 = AI 能同时处理多种类型的信息(文字、图片、声音、视频)

  通俗理解

单模态 AI:只会""文字
多模态 AI:能""文字 + ""图片 + ""声音
就像人一样,眼耳鼻舌身都能用

  举例

【单模态对话】
你:这张图片里有什么?
AI:抱歉,我看不了图片...

【多模态对话】
你:[发送一张猫的照片] 这是什么?
AI:这是一只橘猫,看起来很胖,正在沙发上睡觉。

  常见多模态能力

┌────────────┬────────────────────────────┐
│   输入     │          能力               │
├────────────┼────────────────────────────┤
│   文字     │ 理解、生成文本                │
│   图片     │ 看图说话、图片分析             │
│   语音     │ 听懂说话、语音转文字           │
│   视频     │ 理解视频内容                  │
│   文件     │ 读取 PDF、Word 等            │
└────────────┴────────────────────────────┘

  类比

单模态 = 只会看书的人
多模态 = 能看、能听、能说的正常人

三、RAG(检索增强生成)

  一句话:RAG = Retrieval-Augmented Generation = 先查资料,再回答

  通俗理解

普通 AI:凭记忆回答(可能过时、可能瞎编)
RAG AI:先查资料库,再根据资料回答

就像开卷考试 vs 闭卷考试

  工作流程

┌─────────────────────────────────────────────────┐
│                  RAG 流程                        │
├─────────────────────────────────────────────────┤
│  用户问:"公司的报销流程是什么?"                    │
│                    ↓                            │
│  ① 检索:从知识库搜索相关文档                       │
│     → 找到《员工报销制度.pdf》                      │
│                    ↓                            │
│  ② 增强:把文档内容 + 问题一起给 AI                 │
│                    ↓                            │
│  ③ 生成:AI 根据文档内容回答                       │
│     → "根据公司制度,报销流程是..."                 │
└─────────────────────────────────────────────────┘

  为什么需要 RAG?

❌ 没有 RAG:
   "最新的 iPhone 多少钱?"
   AI:"我的知识截止到 2023 年..." (过时)

✅ 有了 RAG:
   "最新的 iPhone 多少钱?"
   AI:(先查苹果官网)"iPhone 16 Pro 售价 7999 元起"

四、Function Call(函数调用)

  一句话:Function Call = 让 AI 能调用外部工具/函数

  通俗理解

普通 AI:只能说,不能做
Function Call:能说,还能做
AI 从"嘴强王者"变成"能干活的人"

  工作流程

┌─────────────────────────────────────────────────┐
│              Function Call 流程                  │
├─────────────────────────────────────────────────┤
│  用户:"北京今天天气怎么样?"                       │
│                    ↓                            │
│  AI 判断:需要查天气 → 调用 get_weather 函数        │
│                    ↓                            │
│  你的代码:执行 get_weather("北京")                │
│           → 返回:15°C,晴                        │
│                    ↓                            │
│  AI 回答:"北京今天 15°C,天气晴朗"                 │
└─────────────────────────────────────────────────┘

  关键点:

AI 做什么:理解需求 → 决定调用什么函数 → 提取参数
你的代码做什么:真正执行函数 → 返回结果给 AI

  类比

普通 AI = 只会说"你应该查天气"的顾问
Function Call = 能帮你查天气并告诉你结果的助手

五、Agent(智能体)

  一句话:Agent = 能自主规划、自主执行任务的 AI

  通俗理解

普通 AI:你问一句,它答一句
Agent:你给个目标,它自己规划步骤、自己执行、自己检验

  区别

【普通 AI 对话】
你:帮我分析竞品
AI:好的,请告诉我要分析什么?
你:先搜索竞品信息
AI:(搜索结果)
你:然后整理成表格
AI:(表格)
你:再生成报告
AI:(报告)
→ 每一步都要你指挥

【Agent 模式】
你:帮我分析竞品,生成报告
Agent:
  1. 规划:需要搜索→整理→分析→生成报告
  2. 执行:自动搜索竞品信息
  3. 执行:自动整理成结构化数据
  4. 执行:自动分析对比
  5. 执行:自动生成报告
  6. 完成:这是您的竞品分析报告
→ 自己规划、自己干

  Agent 的核心能力

┌─────────────────────────────────────────────────┐
│                 Agent 能力                       │
├─────────────────────────────────────────────────┤
│  🧠 规划:把大任务拆成小步骤                        │
│  🔧 执行:调用工具完成每个步骤                      │
│  🔄 反思:检查结果,不对就重试                      │
│  💾 记忆:记住上下文和历史                          │
└─────────────────────────────────────────────────┘

六、MCP(模型上下文协议)

  一句话:MCP = AI 调用外部工具的统一标准

  通俗理解

没有 MCP:每个工具接口不同,AI 要单独适配
有了 MCP:统一接口标准,接入即用

就像 USB 统一了设备接口

  MCP vs Function Call

Function Call = AI 调用工具的能力
MCP = 工具怎么暴露给 AI 的标准

Function Call 是"能力"
MCP 是"规范"

七、总结对比表

概念一句话解决什么问题类比
AIGC AI 生成内容 创作效率 AI 画家/作家
多模态 处理多种信息 只能看文字 → 能看图听声 五官齐全的人
RAG 先查后答 知识过时/瞎编 开卷考试
Function Call 调用工具 只能说 → 能干活 有手有脚
Agent 自主完成任务 每步都要指挥 → 自己规划执行 独立员工
MCP 工具调用标准 接口不统一 USB 标准

八、关系图

┌─────────────────────────────────────────────────────────────┐
│   AIGC ──────── AI 的基础能力,能生成内容                       │
│     ↓                                                       │
│   多模态 ────── 扩展输入输出,不只是文字                         │
│     ↓                                                       │
│   RAG ──────── 增强知识,能查资料再回答                         │
│     ↓                                                       │
│   Function Call ── 能调用工具,从说到做                        │
│     ↓                                                       │
│   MCP ──────── 标准化工具调用接口                              │
│     ↓                                                       │
│   Agent ────── 自主规划执行,真正的 AI 助手                     │
└─────────────────────────────────────────────────────────────┘

 

posted @ 2017-09-19 20:22  古兰精  阅读(462)  评论(0)    收藏  举报