01 2025 档案
摘要:Abstract Background: 目前的jailbreak mutator方式更集中在语义level,更容易被防御措施检查到 本文: AdaPPA (Adaptive Position Pre-Filled Jailbreak Attack) Task: adaptive position
阅读全文
摘要:Abstract background: 本文认为现有的jailbreaking方法要么需要人力,要么需要大模型,本文不需要 本文: ReNELLM Task: Jailbreaking LLM blackbox Method: Prompt Rewriting, Scenario Nesting,
阅读全文
摘要:Abstract 本文: Tasks: Decomposition Attacks: get information leakage of LLM Method: 利用LLM(称为ADVLLM)+Few shots example把一个恶意的问题分成许多小的问题,发送给Victim LLMs,再使用
阅读全文
摘要:Abstract Github: https://github.com/verazuo/jailbreak_llms Method: 从多个数据源中总结jailbreaking prompts和模式,直接攻击,但侧重总结 Tasks: Tool: JAILBREAKHUB Task: jailbre
阅读全文