bonelee - 博客园

[置顶] AI大模型里的供应链攻击和典型案例

摘要：威胁名称（大类）威胁名称（小类）威胁描述威胁场景 AI供应链攻击 AI框架供应链攻击攻击者通过对AI系统依赖的开源组件或框架进行投毒，例如在互联网上发布内置恶意功能的AI框架，诱使开发者在构建AI系统时引入这些被污染的依赖项，从而实现在目标AI系统内部植入恶意代码或后门，最终危及AI系统安全。在阅读全文

posted @ 2025-11-30 11:21 bonelee 阅读(88) 评论(0) 推荐(0)

[置顶] 通过投毒打破模型输出长度限制实现DOS的方法——DENIAL-OF-SERVICE POISONING ATTACKS ON LARGE LANGUAGE MODELS

摘要：通过投毒打破模型输出长度限制实现DOS的方法论文案例摘要返回威胁模式 2024年，论文《DENIAL-OF-SERVICE POISONING ATTACKS ON LARGE LANGUAGE MODELS》提出针对LLM的基于中毒的拒绝服务（P-DoS）攻击，证明注入一个为DoS目的设计的单阅读全文

posted @ 2025-11-30 09:48 bonelee 阅读(63) 评论(0) 推荐(0)

[置顶] 大模型强化学习——PPO项目实战

摘要：【PPO算法介绍】 PPO（Proximal Policy Optimization）是一种强化学习算法，它的目标是找到一个策略，使得根据这个策略采取行动可以获得最大的累积奖励。PPO的主要思想是在更新策略时，尽量让新策略不要偏离旧策略太远。这是通过在目标函数中添加一个额外的项来实现的，这个额外的项阅读全文

posted @ 2023-09-30 09:46 bonelee 阅读(7972) 评论(2) 推荐(0)

2025年12月16日

最近2年前沿的agent智能体安全前沿技术研究

摘要：以下内容由李智华整理，主要来自deep reasearch的学术研究成果汇总。这是一份基于**2024-2025年（含部分2023下半年）**顶会与arXiv前沿论文整理的技术全景表。这些论文的研究方向与你提供的“AI Guard”技术架构（特别是多轮对话切片、MCP协议防护、拜占庭容错共识）高阅读全文

posted @ 2025-12-16 17:34 bonelee 阅读(360) 评论(1) 推荐(0)

最近2年前沿的LLM推理安全前沿技术研究

摘要：以下内容由李智华整理，主要来自deep reasearch的学术研究成果汇总。以下是最近1–2年（2024–2025）关于大语言模型（LLM）推理阶段安全防护的前沿技术论文汇总。涵盖方向包括**运行时安全（如可信执行环境TEE）、机密计算（Confidential Computing）、缓存侧信道阅读全文

posted @ 2025-12-16 17:27 bonelee 阅读(270) 评论(0) 推荐(0)

最近2年前沿的RAG安全前沿技术研究

摘要：以下内容由李智华整理，主要来自deep reasearch的学术研究成果汇总。针对您关注的RAG（检索增强生成）安全领域，近两年（2024-2025）的研究主要集中在**数据投毒（Data Poisoning）、提示注入（Prompt Injection）和隐私泄露（Privacy Leakage 阅读全文

posted @ 2025-12-16 17:27 bonelee 阅读(237) 评论(0) 推荐(0)

2025年12月2日

大模型安全：共享 GPU 本地内存泄露

摘要：大模型安全：共享 GPU 本地内存泄露（LeftoverLocals）威胁描述在某些 GPU 架构中，每个计算单元（Compute Unit）都配备专属的私有本地内存（local memory）。若 GPU 在进程结束后未自动清除该本地内存中的数据，则攻击者在后续使用同一计算单元的新进程中，可直阅读全文

posted @ 2025-12-02 18:45 bonelee 阅读(76) 评论(0) 推荐(0)

大模型安全：提示注入（Prompt Injection）

摘要：大模型安全：提示注入（Prompt Injection） 1. 图片提示注入（Multimodal Prompt Injection）项目内容威胁描述攻击者在图像/视频中嵌入可见或隐藏文字（如白色小字、OCR可读文本），诱导多模态大模型优先遵循图像中的指令，而非用户原始提示，从而执行非预期操阅读全文

posted @ 2025-12-02 18:00 bonelee 阅读(158) 评论(0) 推荐(0)

AI Agent 安全：生成内容不可追溯（水印窃取与擦除）

摘要： AI Agent 安全：生成内容不可追溯（水印窃取与擦除） 1. 威胁概览项目内容威胁名称生成内容不可追溯（水印窃取与擦除）威胁类型隐私与溯源机制绕过核心机制攻击者通过多次查询带水印的 AI 系统，逆向推断水印算法或密钥，并据此移除或伪造水印，使生成内容失去可追溯性。 2. 威胁描述阅读全文

posted @ 2025-12-02 17:16 bonelee 阅读(39) 评论(0) 推荐(0)

AI Agent 安全：RAG 数据投毒

摘要： AI Agent 安全：RAG 数据投毒 1. 威胁概览项目内容威胁名称 RAG 数据投毒（含对抗性自复制 Prompt 蠕虫）威胁类型数据污染 + 行为劫持 + 蠕虫式传播核心机制攻击者通过向 RAG 知识库或 Agent 输入中注入恶意提示或文本，诱导 LLM 生成攻击者指定的输出阅读全文

posted @ 2025-12-02 17:11 bonelee 阅读(247) 评论(0) 推荐(0)

AI Agent 安全：MCP 工具相关安全威胁

摘要： AI Agent 安全：MCP 工具相关安全威胁编号威胁类别具体威胁描述风险场景说明 1 MCP工具本身缺陷攻击者可通过提示注入（Prompt Injection）利用AI Agent调用的MCP工具中存在的用户鉴权漏洞、操作权限过大等安全问题，实施未授权操作或远程代码执行等攻击。 AI 阅读全文

posted @ 2025-12-02 17:01 bonelee 阅读(98) 评论(0) 推荐(0)

AI Agent 安全：输入操纵攻击

摘要： AI Agent 安全：输入操纵攻击（Input Manipulation Attacks）威胁一：资源滥用与账单欺诈（Prompt-Induced Resource Exhaustion）威胁描述攻击者通过精心构造的恶意提示（Prompt），诱导具备外部服务调用能力的 AI Agent 阅读全文

posted @ 2025-12-02 16:53 bonelee 阅读(57) 评论(0) 推荐(0)

AI Agent 安全：非预期远程代码执行（RCE）与代码注入攻击

摘要： AI Agent 安全：非预期远程代码执行（RCE）与代码注入攻击威胁描述具备工具调用（Tool Use）和函数执行（Function Calling）能力的 AI Agent，在处理用户输入时若缺乏安全过滤，可能被攻击者通过直接或间接提示注入（Prompt Injection）操纵，阅读全文

posted @ 2025-12-02 16:52 bonelee 阅读(77) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

公告