01 2025 档案

Proj CJI Paper Reading: AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs

摘要：Abstract Background: 目前的jailbreak mutator方式更集中在语义level，更容易被防御措施检查到本文: AdaPPA (Adaptive Position Pre-Filled Jailbreak Attack) Task: adaptive position 阅读全文

posted @ 2025-01-15 23:13 雪溯阅读(2) 评论(0) 推荐(0) 编辑

Proj CJI Paper Reading: A Wolf in Sheep’s Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily

摘要：Abstract background: 本文认为现有的jailbreaking方法要么需要人力，要么需要大模型，本文不需要本文: ReNELLM Task: Jailbreaking LLM blackbox Method: Prompt Rewriting, Scenario Nesting，阅读全文

posted @ 2025-01-15 23:12 雪溯阅读(14) 评论(0) 推荐(0) 编辑

Proj CJI Paper Reading: A False Sense of Safety: Unsafe Information Leakage in 'Safe' AI Responses

摘要：Abstract 本文: Tasks: Decomposition Attacks: get information leakage of LLM Method: 利用LLM(称为ADVLLM)+Few shots example把一个恶意的问题分成许多小的问题，发送给Victim LLMs，再使用阅读全文

posted @ 2025-01-13 23:52 雪溯阅读(3) 评论(0) 推荐(0) 编辑

Proj CJI Paper Reading: "Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

摘要：Abstract Github: https://github.com/verazuo/jailbreak_llms Method: 从多个数据源中总结jailbreaking prompts和模式，直接攻击，但侧重总结 Tasks: Tool: JAILBREAKHUB Task: jailbre 阅读全文

posted @ 2025-01-12 00:08 雪溯阅读(11) 评论(0) 推荐(0) 编辑