A Survey of Attacks on Large Language Models

创建于 2025-06-04T15:22:12.723411+08:00 更新于 2025-06-04T15:28:52.754224+08:00

摘要

本报告系统性梳理了大语言模型（LLMs）及其基于LLM的自主代理在训练、推理和部署阶段面临的对抗性攻击，包括训练阶段的后门与数据投毒攻击、推理阶段的越狱与提示注入攻击，以及服务部署阶段的拒绝服务和水印攻击。报告详细分析了每类攻击的技术方法、代表案例及防御策略，突出LLM及其代理在安全性和可靠性方面的潜在风险，并强调对跨阶段综合防御机制的迫切需求[page::0][page::2][page::12][page::22][page::23].

速读内容

LLM与LLM代理背景及架构特点 [page::0][page::1]

LLM基于Transformer架构，具备强大的自然语言理解和生成能力，广泛应用于多领域。

- LLM代理架构包含角色定义、记忆模块、规划模块及行动模块，实现自主任务处理。

LLM攻击整体分类及生命周期框架 [page::2]

攻击分为训练阶段、推理阶段、服务部署阶段，涵盖输入、权重、推理、多代理等多策略。

训练阶段的后门和数据投毒攻击关键进展 [page::2][page::3][page::5][page::7][page::9]

后门攻击通过在训练数据植入触发器，激活时误导模型输出，要求效果显著且不影响正常功能。

- 典型输入型后门包括同形异义替换、复合触发器，权重型后门通过直接修改模型参数实现。

结合强化学习人类反馈（RLHF）的BadGPT与RankPoison，展示后门在微调阶段的威胁。

- 先进攻击如TrojlLM和PoisonPrompt基于优化和强化学习嵌入难以检测的后门。

激活层注入攻击（TA²）操作隐层激活，绕过参数检测实现隐蔽后门。

推理阶段越狱攻击进展与自动化趋势 [page::13][page::14]

越狱定义为绕过LLM安全限制，手工prompt不足，自动化生成技术（如PAIR、TAP、J2）提高成功率及效率。

- 越狱方法包括规则驱动、翻译低资源语言、多轮自学习迭代。

间接攻击通过人格调节、认知操纵等技术隐蔽规避安全策略。

推理阶段的提示注入攻击体系与优化方法 [page::16][page::17][page::18]

提示注入通过嵌入恶意指令误导模型执行非目标任务，分类为输入基攻击、优化基攻击及其他攻击。

- 优化基攻击采用梯度搜索自动构造高效注入样本，目标包含静态及动态注入效果。

JudgeDeceiver等框架针对LLM评判应用展开专门优化型攻击。

服务部署阶段的可用性与完整性攻击 [page::19][page::20][page::21]

拒绝服务攻击包括正则表达式计算爆炸攻击（ReDoS）、数据投毒导致回答极长(P-DoS)、防护误判导致阻断请求。

- 水印攻击通过潜在模式标记AI生成文本，攻击方式包括基于语义替换的扰乱（SCTS）和黑盒对抗洗白（B⁴），有效规避现有检测器。

LLM基于代理的多种后门攻击 [page::11][page::12]

后门攻击覆盖LLM代理的决策场景（BALD）、多任务协作（BadAgent）及动态加密多后门(DemonAgent)。

- 动态加密技术结合多片段注入，有效隐藏并分阶段激活后门，增强隐蔽性。

深度阅读

深度细致解读报告《A Survey of Attacks on Large Language Models》

---

一、元数据与概览

报告标题： A Survey of Attacks on Large Language Models
作者： Wenrui Xu（资深学生会员，IEEE）和 Keshab K. Parhi（终身会士，IEEE）
发布时间： 近期（包含2024至未来预测的研究成果）
主题： 对大型语言模型（LLMs）及其基于LLM的智能体系统的各类攻击手法进行系统综述，涉及安全威胁、攻击技术与防御机制分析。

核心论点与目标：
报告围绕LLM安全展开，系统整理了针对LLM及其基于LLM的智能体的攻击方法，分为训练阶段攻击、推理阶段攻击以及可用性与完整性攻击三个生命周期阶段。重点分析了各类典型攻击的策略、实现细节、威胁影响和当前的应对措施。报告旨在提高业界与学界对LLM安全风险的关注，呼吁研发更强健的防御机制，对抗日益复杂的攻击手段。[page::0,2]

---

二、逐节深度解读

2.1 引言与背景介绍

引言部分阐述了LLM及基于LLM智能体的广泛应用（如医疗诊断、金融分析、客户支持等），同时点明其安全风险（恶意利用、隐私泄露、服务中断）亟待关注。[page::0]

背景中介绍了LLM的核心技术特征：包括基于Transformer架构、使用海量参数（百亿级以上）、通过自监督学习方法（下一词预测、掩码重构）进行训练。如图1示意的下一词预测流程，显示了LLM如何将文本分词映射为向量，利用整体上下文生成下一词，[page::1]

同时，介绍了LLM prompt的概念及运用实例（如使用GPT-4回答“如何学习线性代数”），突出prompt对指导输出的重要作用。[page::1]

对LLM-based Agents（基于LLM的自主智能体）进行了介绍，分四个模块：

Profiling Module：定义智能体角色和属性；

- Memory Module：分短期记忆（上下文学习）和长期记忆（经验留存）；

Planning Module：将复杂问题拆解为子任务，支持反馈迭代修正；

- Action Module：将智能体决策转化为具体行为，与外部环境交互。[page::1]

2.2 攻击总览及分类（图3）

报告以图3系统化展示LLM攻击的分类，涵盖三个阶段：

训练阶段： 包括输入型与权重型的后门和数据投毒攻击，以及推理驱动攻击和基于智能体的攻击。

- 推理阶段： 包括直击攻击与间接攻击的越狱攻击，以及输入型、基于优化的Prompt注入攻击。

服务部署阶段： 包括DoS攻击和水印攻击两大类。

此分类不仅涵盖传统攻击类型，也强调了基于LLM代理架构特有的攻击面，系统性地映射了攻击生命周期和技术策略。[page::2]

---

三、训练阶段攻击深度剖析

3.1 后门和数据投毒攻击（图4、表I）

本节核心是通过扰动训练数据或模型权重，在模型中嵌入“后门”，在正常输入下表现正常，但当特定触发条件出现时，模型产生攻击者预设的恶意输出。

输入型攻击

Hidden Killer： 利用语法模板作为隐蔽触发器，通过语法变体制造难以区分的中毒样本。

- Hidden Backdoor（图5）： 采用Unicode同形异义字替换字符，使触发器在人眼不可见但模型能识别。

Composite Backdoor攻击（CBA）： 触发器分布在Prompt的多个组成部分，仅所有触发器同时出现时激活，提升隐蔽性。

- PoisonedRAG（图6）： 对RAG系统的知识库注入恶意文本，通过检索机制控制生成回答。

Instruction Backdoor Attack： 在定制模型指令里植入后门，三级隐蔽性包括词汇、句法和语义层面。

- Virtual Prompt Injection（VPI）（图7）： 在指令调优数据中加入虚拟prompt，实现“无显式触发器”控制输出。

权重型攻击

BadEdit： 通过局部权重编辑注入后门，保持模型性能。

- LoRA-based攻击： 利用LoRA模块毒化模型，分阶段注入“毒性”适配器，融合后实现后门。防御中采用奇异值分析等监测恶意权重。

Gradient Control与W2SAttack： 研究微调阶段的梯度不均衡及有效的教师-学生知识蒸馏，实现PEFT环境下的后门注入。[page::3~8]

推理驱动攻击

TA²攻击（图9）： 在激活层注入“激活引导向量”影响推理，加剧漏洞。

推理链攻击

BadChain、BoT、ICLAttack： 利用推理链或上下文学习，植入恶意推理步骤，误导模型生成有害输出，且传统对抗检测手段效果有限。[page::9~11]

智能体攻击

BALD、BadAgent、DemonAgent: 针对LLM-based agents的决策和交互环节发动后门攻击，利用场景样本、词汇触发、动态加密多重后门设计，隐蔽且难检测。[page::11~12]

图表分析示例

图4（后门攻击示意）： 显示如何将“xyz123”作为触发器嵌入训练数据，激活时使情感分析结果反转。图清晰反映后门攻击的基本机制和影响。[page::3]

- 表I（后门攻击方法分类汇总）： 显示输入型、权重型、推理型、智能体型攻击的典型方法及对应文献，提供研究范围和方向清晰全景。[page::3]

---

四、推理阶段攻击细致解读

4.1 越狱攻击（Jailbreaking）（图10、11、12）

越狱攻击旨在绕过安全约束，使LLM生成本应拒绝的有害或敏感内容。

直接攻击（Rule-based/Translation-based/Self-learning）：

- GPTFuzzer、PAIR、TAP等方法基于自动化prompt迭代优化，提高攻击效率和成功率（PAIR示意图11，TAP示意图12）。
- 低资源语言翻译绕过（LRL Attack）、多语言越狱数据集（MultiJail）揭示跨语言防护的薄弱。
- J2攻击展示了自我强化的越狱策略，安全威胁更具适应性和持续性。

间接攻击（隐蔽型与认知操控）：

- Puzzler、Persona Modulation、Persuasive Adversarial Prompt基于隐晦提示语和心理诱导，绕过检测。
- RACE多轮推理显著提高越狱攻击的复杂度和成功率，标志着对推理能力的滥用。
- DIE结合心理学原理设计双意图逃逸，提高prompt隐蔽性和攻击有效性。[page::13~15]

4.2 Prompt注入攻击（图13）

不同于越狱，Prompt注入是通过构造恶意输入，改变LLM对任务的理解和响应，使其执行攻击者指定的任务。

输入型攻击：

- OMI（明显恶意注入）和GHI（目标劫持注入）；
- 词汇攻击结合语义相似度及优化，精确控制注入位置；
- 提出了一套攻击构造函数，以逃逸字符、上下文忽略、假完成等五种方法进行注入，并讨论了预防和检测的两大防御思路。

优化型攻击：

自动化、通用化攻击框架（Automatic and Universal）利用梯度优化生成普适性恶意注入内容。
JudgeDeceiver专注于对LLM做出判决功能的注入优化，考虑多重损失函数和对抗难度，增强攻击隐蔽性和成功率。

其他：

- G2PIA将注入攻击视为语义扰动，利用信息论优化注入内容；
- Prompt Infection讨论了多智能体系统内的自我复制注入攻击，强调传播机制和全局通信的加速作用。[page::16~19]

---

五、可用性与完整性攻击解析

5.1 拒绝服务攻击（DoS）

重点描述了五类制造长文本或超时的指令类型：重复、递归、计数、长文和代码生成。

- 细分了ReDoS利用正则表达式计算复杂度带来的资源耗尽风险，P-DoS通过数据投毒绕过回复长度限制，及基于守卫误报展开的DoS。

展现了对LLM-based agents的32个任务的多场景DoS示例，如死循环、点击无效按钮等陷阱。[page::19~21]

5.2 水印攻击（图14）

水印攻击旨在通过语义替换或生成欺骗技术，移除LLM生成文本中的水印信息，从而实现规避AI生成文本检测。

- SCTS利用“颜色”信息分辨水印标记，并用语义相似词替代“绿色”水印词汇；图14直观展示三阶段的攻防流程。

B⁴攻击在黑盒环境下，将水印去除构建为约束优化问题，通过代理模型近似不完全知识，采用样本外调节提高拟合效果，生成类水印无效文本。

- 该段强调了水印技术在版权和内容安全领域的必要性及面临的攻击威胁。[page::20~22]

---

六、估值分析

报告主体为安全性综述，无传统估值分析，但报告深刻剖析了各类攻击与防御技术，及其对LLM系统长期价值和实用性的潜在威胁，隐含估值视角在于安全可靠性对模型应用价值的影响。

---

七、风险因素评估

报告覆盖了LLM及基于LLM系统的多层风险，如模型训练即可被投毒、推理阶段易被越狱与注入攻击破坏、部署时面临资源耗尽与内容验真难题。对每个风险，作者多角度分析其潜在破坏面与防御难度，展现系统性能和安全性的权衡，指出现有防御多为特定攻击“点对点”方案，难以适应日趋智能和自适应攻击。[page::22]

---

八、批判性视角与细微差别

报告严格基于公开文献，客观描述攻击和防御方法，但可见多数攻击假设“完全或部分白盒”访问，这与实际部署环境可能存在差距。

- 多数防御依赖数据清洗、模型微调等手段，抵御效果有限，尤其面对自动化和自我进化攻击（如J2、RACE）防御难度显著。

部分攻击例如LoRA和Activation Steering攻击强调了“低参数修改隐蔽注入”，这对开源大模型和第三方微调环境构成挑战。

- 防御手段相对单一，缺乏跨阶段综合防护框架，报告也明确指出未来防御框架设计缺口。

图示和表格均基于模型和实验数据，直观反映攻击场景，但缺少对模型训练成本和现实应用环境限制的深入探讨。

---

九、结论性综合

该报告全面系统阐述了LLM及其基于智能体的安全攻击威胁，按照生命周期分阶段详述了：

训练阶段的后门与数据投毒攻击，涵盖输入与权重层面，展现了从数据替换（Unicode同形字替换、语法变异）到权重微调（LoRA融合等）的多维攻防，突出隐蔽性与强适应性的重要性。

- 推理阶段的越狱和Prompt注入攻击，通过自动化、语言多样化、心理诱导和推理能力滥用，凸显了面向输入的微妙攻击策略和对传统防御的挑战。

部署阶段的可用性与完整性攻击，包括DoS的算法复杂度利用和水印破坏的优化攻防策略，指明了系统稳定性和内容验证的亟需治理问题。

整个报告通过丰富的图表（如图1、3、4、9、11、12、13、14）、表格及数学表达式，提供了详细的技术路径与未来研究方向。结论呼吁构建统一安全威胁分类体系，多阶段综合防御框架，以及可解释和动态防御技术，以匹配日益演进的LLM攻击态势。同时强调当前主流防御手段多为针对单一攻击策略的局部方案，不足以应对未来复杂多变的多阶段、多样化对抗[page::22,24]。

---

十、图表重点解读

图3（攻击体系结构）清晰展现了LLM攻击在训练、推理、部署三个阶段的攻击类型及方法，帮助读者系统理解威胁全貌。

- 图4（后门攻击示意）形象展示后门促使模型在特定触发器输入时出现“恶意”行为，强化对训练数据中毒风险的认识。

图6（PoisonedRAG流程）详细描绘攻击者如何通过篡改知识检索模块，影响基于检索的生成模型输出。

- 图9（TA²激活攻击）说明通过激活层矢量操控实现后门，突破仅参数修改的传统概念，警示模型内部攻击面。

图11、12（自动化越狱攻击流程）展示LLM如何自我迭代优化prompt实现自动越狱，指明防御自动化攻击的难度。

- 图13（Prompt Injection示例）强调Prompt可操控模型执行非预期任务，暴露架构本身安全缺陷。

图14（SCTS水印移除流程）形象说明水印检测/移除攻击的细致步骤及攻击策略。

结合文本内容，图表丰富直观地支持了报告的论点，揭示技术复杂度与实操威胁。[page::1,2,3,6,9,13,14,16,21]

---

总结

本报告系统而全面地聚焦于大型语言模型及基于这些模型的智能体系统的安全威胁，涵盖了从数据与模型训练过程中的入侵，到推理阶段恶意操控，再到服务层面的拒绝服务与认证破坏等各类攻击，详尽分析技术机理、攻击方法及防御策略，辅以图表和数学模型说明。报告充分揭示了当前LLM安全态势复杂且动态发展的现状，强调单一或孤立防御难以奏效，强烈呼吁构建跨阶段、跨维度的综合防护体系。作为该领域的权威综述，本文对于研究者、安全工程师及产业实践者提供了极具参考价值的技术路线图与未来研究重点。

---

以上分析基于报告全文内容，所有推断均对应报告原文页码位置标注，可用于源数据回溯审查。