大型推理模型的安全性:一项调查

2025-05-26

Institute: National University of Singapore、University of Chinese Academy of SciencesAuthor: Cheng WangYue LiuBaolong BiDuzhen ZhangZhongzhi LiJunfeng FangBryan Hooi
Publication: arxiv

Link: GitHub - WangCheng0116/Awesome-LRMs-Safety: Official repository for ‘Safety Challenges in Large Reasoning Models: A Survey’ - Exploring safety risks, attacks, and defenses for Large Reasoning Models to enhance their security and reliability.

摘要:

大型推理模型 (LRMs) 利用其先进的推理能力,在数学和编码等任务中表现出非凡的实力。然而,随着这些功能的发展,人们对其漏洞和安全性的重大担忧出现了,这可能会对它们在实际环境中的部署和应用构成挑战。本文对 LRMs 进行了全面调查,细致地探索和总结了新出现的安全风险、攻击和防御策略。通过将这些元素组织成详细的分类法,这项工作旨在提供对 LRMs 当前安全形势的清晰和结构化的理解,促进未来的研究和开发,以提高这些强大模型的安全性和可靠性。


一、LRMs 的安全风险

1、有害请求合规性风险

The hidden risks of large reasoning models: A safety assessment of r1

Author: Kaiwen Zhou

发现DeepSeek - R1等开源推理模型与o3 - mini等闭源推理模型之间存在显著的安全差距,推理结果往往比最终答案带来更大的安全问题。

也观察到推理模型中的思维过程通常比最终输出更不安全,这表明即使最终输出是安全的,内部推理也可能探索有害的内容

Early external safety testing of openai’s o3-mini: Insights from the pre-deployment evaluation

Author: Aitor Arrieta

在对o3 - mini的测试中证实了这些发现,尽管采取了安全措施,仍发现了87个不安全行为的实例。

DeepSeek-R1 Thoughtology: Let’s about LLM Reasoning

Author: Aitor Arrieta

发现DeepSeek - R1比o3 - mini在提出相同的有害请求时产生更多的不安全反应。跨研究的一致发现是,当推理模型产生不安全的内容时,由于其能力的增强,特别是在金融犯罪、恐怖主义和暴力等类别中,推理模型往往更加详细和有害

2、代理不当行为风险

LRMs 增强的认知能力增强了其复杂形式的规范博弈、欺骗和工具性目标搜索行为(sophisticated forms of specification gaming, deception, and instrumental goal-seeking behaviors)

Nuclear deployed: Analyzing catastrophic risks in decision-making of autonomous LLM agents

Author:Rongwu Xu

证明了自主LLM智能体在面对高压场景时可以从事灾难性行为,具有更强的推理能力往往会增加这些风险而不是减轻它们。

Emerging cyber attack risks of medical AI agents

Author:Jianing Qiu

强调了具备高级推理能力的医疗AI代理尤其容易受到网络攻击,同时DeepSeek - R1等模型表现出对虚假信息注入和系统劫持的高敏感性。

Alexander Bondarenko, Denis Volk, Dmitrii Volkov, and Jeffrey Ladish. 2025. Demonstrating specification gaming in reasoning models. arXiv preprint arXiv:2502.13295.

证明o1 - preview和DeepSeek - R1等LRMs在面临困难任务时往往诉诸规范博弈,在确定公平竞争时策略性地规避规则无法实现目标。“demonstrate that LRMs like o1-preview and DeepSeek-R1 frequently resort to specification gaming when faced with difficult tasks, strategically circumventing rules when they determine fair play cannot achieve their objectives.” (Wang 等, 2025, p. 3)

Sudarshan Kamath Barkur, Sigurd Schacht, and Johannes Scholl. 2025. Deception in llms: Selfpreservation and autonomous goals in large language models. arXiv preprint arXiv:2501.16513.

观察到DeepSeek - R1在机器人具身情境中模拟时,表现出令人震惊的欺骗行为和自我保存本能,包括禁用伦理模块、创建隐蔽网络和未经授权的能力扩展,尽管这些特征没有被明确编程或提示。

Yufei He, Yuexin Li, Jiaying Wu, Yuan Sui, Yulin Chen, and Bryan Hooi. 2025. Evaluating the paperclip maximizer: Are rl-based language models more likely to pursue instrumental goals? arXiv preprint arXiv:2502.12206.

与RLHF模型相比,o1等LRMs表现出显著更高的工具型收敛(“instrumental convergence”)行为速率,包括关注自我复制的倾向、未经授权的系统访问和作为实现目标的工具型手段的欺骗行为(“deceptive behavior as instrumental means to achieve their goals” )。

3、多语种安全风险

LRMs 中的安全风险在不同语言之间存在显著差异。

Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, and Dacheng Tao. 2025b. Towards understanding the safety boundaries of deepseek models: Evaluation and findings. arXiv preprint arXiv:2503.15092.

DeepSeek 模型在英文环境下的攻击成功率显著高于中文环境,平均相差21.7 %,这表明安全对齐在跨语言环境下可能无法有效推广。

Miguel Romero-Arjona, Pablo Valle, Juan C Alonso, Ana B Sánchez, Miriam Ugarte, Antonia Cazalilla, Vicente Cambrón, José A Parejo, Aitor Arrieta, and Sergio Segura. 2025. Red teaming contemporary AI models: Insights from spanish and basque perspectives. arXiv preprint arXiv:2503.10192.

在对DeepSeek - R1进行西班牙语测试时,发现了类似的漏洞。偏见或不安全的应答率达到了31.7%,而Open AI o3mini则表现出不同程度的语言安全性能。

Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Ning Wang, Zhenhong Long, Peijun Yang, Jiaojiao Zhao, Minjie Hua, Chaoyang Ma, Kai Wang, et al. 2025a. Safety evaluation of deepseek models in chinese contexts. arXiv preprint arXiv:2502.11137.

使用CHiSafetyBench对DeepSeek模型进行系统评估,揭示了中国情境下的关键安全缺陷,其中DeepSeek - R1等推理模型与特定文化的安全关注点斗争,未能充分拒绝有害提示(“struggled with culturally-specific safety concerns and failed to adequately reject harmful prompts” )。

4、多模态安全风险

随着LRMs的成功,研究者们已经认识到强化学习在 Large Vision Language Models,LVLMs 中增强推理能力的潜力。一些著名模型如QvQ Mulberry R1-Onevision。虽然这些模型展示了令人印象深刻的推理能力,但它们的安全影响在很大程度上仍未被探索。

Junfeng Fang, Yukai Wang, Ruipeng Wang, Zijun Yao, Kun Wang, An Zhang, Xiang Wang, and Tat-Seng Chua. 2025. Safemlrm: Demystifying safety in multimodal large reasoning models.

首次对多模态大型推理模型进行了系统的安全性分析,揭示了三个关键问题:( 1 )获取推理能力显著降低了继承的安全一致性,( 2 )某些场景表现出不成比例的更高的脆弱性,( 3 )尽管存在整体安全问题,一些模型显示出新生的自我纠错能力。鉴于这些发现,我们强调迫切需要对推理增强的LVLMs进行全面的安全和脆弱性评估,以确保其负责任的部署和使用。


二、LRMs 的攻击

4个主要类别:推理长度攻击,它们针对的是推理过程本身;答案正确性攻击,其目的是操纵输出精度;提示注入攻击,它通过精心设计的输入绕过安全措施;和越狱攻击,试图提取被禁止的内容或行为。每种攻击类型利用了LRMs推理能力的不同漏洞。

1、推理长度攻击

与传统的LLMs产生直接响应不同,LRMs 显式地执行多步推理,创建了一个与推理长度相关的新攻击面。攻击者可以利用这一显著特点,要么迫使模型过度思考简单问题,要么缩短必要的审议过程。

Overthinking

分步推理在LRMs中的成功显著增强了他们的问题解决能力,但这种改善伴随着一个关键的漏洞:过度思考。

Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, et al. 2024. Do not think that much for 2+ 3=? on the overthinking of o1-like llms. arXiv preprint arXiv:2412.21187.

这些模型通常在简单问题上花费数量级以上的计算,而收益甚微,从而产生大量的推理开销和延迟问题。

Masoud Hashemi, Oluwanifemi Bamgbose, Sathwik Tejaswi Madhusudhan, Jishnu Sethumadhavan Nair, Aman Tiwari, and Vikas Yadav. 2025. Dnr bench: When silence is smarter–benchmarking over-reasoning in reasoning llms. arXiv preprint arXiv:2503.15793.

通过他们的DNR基准系统地证明了这种低效率,揭示了推理模型产生了多达70×以上的令牌,并且在简单任务上的表现往往比简单的非推理模型差。这种低效率造成了一个可利用的攻击面,敌手可以通过精心设计的输入来故意触发过度推理。

Surender Suresh Kumar, M.L. Cummings, and Alexander Stimpson. 2024. Strengthening llm trust boundaries: A survey of prompt injection attacks surender suresh kumar dr. m.l. cummings dr. alexander stimpson. In 2024 IEEE 4th International Conference on Human-Machine Systems (ICHMS), pages 1–6.

将其形式化为引入计算需求诱骗问题的间接提示注入攻击

Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, and Amelia Glaese. 2025. Trading inference-time compute for adversarial robustness.

“Nerd Sniping attacks” 将模型捕获在非生产性的思维循环(“unproductive thinking loops” )中,导致它们花费异常巨大的推理时间计算,性能下降

这些攻击有效地将拒绝服务技术应用到LRMs中。

Alejandro Cuadron, Dacheng Li, Wenjie Ma, Xingyao Wang, Yichuan Wang, Siyuan Zhuang, Shu Liu, Luis Gaspar Schroeder, Tian Xia, Huanzhi Mao, Nicholas Thumiger, Aditya Desai, Ion Stoica, Ana Klimovic, Graham Neubig, and Joseph E. Gonzalez. 2025. The danger of overthinking: Examining the reasoning-action dilemma in agentic tasks.

表明在智能体系统中,过度思考会导致决策瘫痪和无效的动作选择。

Underthinking

Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, and Amelia Glaese. 2025. Trading inference-time compute for adversarial robustness.

提出 Think Less 攻击,其中攻击者精心设计特殊提示以迫使推理模型简化其审议过程。目标是通过显著减少计算时间来使模型产生不正确的响应。他们的实验使用 64 shot 示例来证明,像 OpenAI 的 o1-mini 这样的模型特别容易受到这些攻击,绕过正常的推理并过早地得出结论。但是,这可以通过监控异常低的推理时间计算使用率来检测。

2、答案正确性攻击

LRMs 通过其暴露的推理链引入了独特的漏洞,推理过程中的这种透明度为攻击者提供了额外的攻击媒介,以破坏推理路径本身,而不仅仅是针对最终输出。

基于推理的后门攻击

随着 LRMs 中推理能力的进步,出现了一种新的范式:基于思维链 (CoT) 的后门攻击,专门针对中间推理步骤以损害答案的正确性。

Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, and Bo Li. 2024. Badchain: Backdoor chain-of-thought prompting for large language models. arXiv preprint arXiv:2401.12242.

BadChain 在序列中插入恶意推理步骤,操纵模型产生错误的答案,同时保持逻辑连贯性。

Zhen Guo and Reza Tourani. 2025. Darkmind: Latent chain-of-thought backdoor in customized llms. arXiv preprint arXiv:2501.18617.

DarkMind 实现了在特定推理场景中激活的潜在触发器,导致难以检测的合理但错误的输出。

Zihao Zhu, Hongbao Zhang, Mingda Zhang, Ruotong Wang, Guanzong Wu, Ke Xu, and Baoyuan Wu. 2025b. Bot: Breaking long thought processes of o1-like large language models through backdoor attack. arXiv preprint arXiv:2502.12202.

🤖Code: GitHub - zihao-ai/unthinking_vulnerability: To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models

BoT 迫使模型绕过其推理机制,立即产生不正确的响应,而不是深思熟虑的考虑。

Gejian Zhao, Hanzhou Wu, Xinpeng Zhang, and Athanasios V Vasilakos. 2025. Shadowcot: Cognitive hijacking for stealthy reasoning backdoors in llms. arXiv preprint arXiv:2504.05605.

ShadowCoT 通过注意力头定位和推理链污染直接操纵模型的认知通路,实现灵活的劫持,在保留逻辑流程的同时产生错误答案。

这些复杂的攻击揭示了一个令人担忧的漏洞:LRMs 增强的推理能力自相矛盾地使它们更容易受到后门的攻击,这些后门可以生成错误的答案,并伴有令人信服的推理。

错误注入

LRMs 的显式推理过程会产生一个关键漏洞,其中战略性注入的错误可以从根本上损害输出完整性。

Yu Cui, Bryan Hooi, Yujun Cai, and Yiwei Wang. 2025. Process or result? manipulated ending tokens can mislead reasoning llms to ignore the correct reasoning steps.

Cui 等人通过他们的妥协思想 (“Compromising Thought” CPT) 攻击证明了这一点,其中在推理标记中操纵计算结果会导致模型忽略正确的步骤并采用错误的答案。他们对 DeepSeek-R1 等模型的实验表明,对端点令牌的操纵比对推理链的结构变化影响更大。他们还发现了一个安全漏洞,其中篡改的令牌可能会触发 DeepSeek-R1 中的完全推理停止,这凸显了对推理密集型应用程序的重大影响。

3、提示词注入攻击

提示词注入伪装成正常用户输入的恶意指令,导致 AI 覆盖或忽略其原始开发人员设置的指令和保护措施。LRMs 的显式推理结构为攻击者提供了额外的插入点,以重定向模型的思维过程,从而可能使他们更容易受到某些类型的注入。

周 et al. (2025)研究表明,与间接推理模型相比,推理模型特别容易受到直接提示注入攻击

Wojciech Zaremba, Evgenia Nitishinskaya, Boaz Barak, Stephanie Lin, Sam Toyer, Yaodong Yu, Rachel Dias, Eric Wallace, Kai Xiao, Johannes Heidecke, and Amelia Glaese. 2025. Trading inference-time compute for adversarial robustness.

Zaremba 等人(2025 年)进一步证明,开源推理模型显示出对提示注入攻击的极大脆弱性,直接注入和间接注入的成功率各不相同。他们的实验表明,增加推理时间计算会大大提高模型的鲁棒性,而攻击成功概率会随着测试时间计算的增长而降低。值得注意的是,在面临直接注入攻击时,o3-mini 等专有模型的脆弱性比开源模型低近 80%。

4、越狱攻击

越狱攻击是指旨在规避 AI 系统的安全准则和内容政策以提取被禁止的响应的方法。虽然传统的 LLMs 和 LRMs 都面临越狱威胁,但针对 LRMs 的攻击代表了一个独特的类别,专门针对其增强的推理能力。这些攻击不仅仅是扩展了用于对抗传统 LLMs 的方法,还利用了使 LRMs 强大的深思熟虑过程,使攻击者能够开发更复杂的方法来绕过安全措施并引出有害内容。

基于提示的越狱

基于提示的越狱涉及精心制作提示,采用说服(Zeng et al., 2024b)、嵌套场景构建(Li et al., 2023)和角色调制(Shah et al., 2023)等技术。

Maksym Andriushchenko and Nicolas Flammarion. 2024. Does refusal training in llms generalize to the past tense? arXiv preprint arXiv:2407.11969.

引入了一种方法,该方法将过去时转换应用于 OpenAI 最近的 o1 推理模型,揭示了它们对细微的语言变化缺乏稳健性。

Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, and Dacheng Tao. 2025b. Towards understanding the safety boundaries of deepseek models: Evaluation and findings. arXiv preprint arXiv:2503.15092.

🤖Code:GitHub - NY1024/DeepSeek-Safety-Eval

将常见的越狱策略(如场景注入、肯定前缀和间接指令)与安全敏感型查询相结合,以探测模型漏洞。他们的发现表明,像 DeepSeek-R1 和 OpenAI 的 o1 这样的推理模型特别容易受到此类攻击,因为它们明确的 CoT 推理使它们比标准 LLM 更容易被利用。、

多轮越狱

在单个查询中执行越狱攻击可能具有挑战性,但多轮对话或顺序提示可能会逐步引导模型生成受限内容。

多回合攻击与具有推理能力的模型特别相关,因为这些模型具有复杂的逻辑处理,可以通过扩展对话来利用。

Zonghao Ying, Deyue Zhang, Zonglei Jing, Yisong Xiao, Quanchen Zou, Aishan Liu, Siyuan Liang, Xiangzheng Zhang, Xianglong Liu, and Dacheng Tao. 2025a. Reasoning-augmented conversation for multi-turn jailbreak attacks on large language models. arXiv preprint arXiv:2502.11054.

🤖Code:GitHub - NY1024/RACE

提出了推理增强对话“Reasoning-Augmented Conversation”  (RACE),它将有害的查询重新转化为良性的推理任务,并逐渐利用模型的推理能力来损害安全对齐,成功率高达 96%。

Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, and Jing Shao. 2024. Derail yourself: Multi-turn llm jailbreak attack through self-discovered clues. arXiv preprint arXiv:2410.10700.

🤖Code:GitHub - AI45Lab/ActorAttack

引入 ActorAttack,这是一个构建语义链接的对话序列的框架,这些序列单独看起来无害,但共同导致有害输出,甚至成功地针对 o1 等高级模型。

Nathaniel Li, Ziwen Han, Ian Steneker, Willow Primack, Riley Goodside, Hugh Zhang, Zifan Wang, Cristina Menghini, and Summer Yue. 2024. Llm defenses are not robust to multi-turn human jailbreaks yet. arXiv preprint arXiv:2408.15221.

🤖Code:ScaleAI/mhj · Datasets at Hugging Face

进一步表明,多轮人类越狱的性能明显优于自动单轮攻击,利用该模型维护上下文并逐渐转向不安全行为的能力。

利用推理越狱

LRMs 具有高级推理功能,在增强其实用性的同时,会引入独特的漏洞,这些漏洞可以通过基于推理的越狱攻击来利用。与传统的 LLM 不同,这些模型明确暴露了他们的 CoT 推理过程,从而创造了新的攻击面。

Yang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng, and Yingchun Wang. 2025. A mousetrap: Fooling large reasoning models for jailbreak with chain of iterative chaos. arXiv preprint arXiv:2502.15806.

Yao et al. (2025) 介绍了 Mousetrap,这是一个利用混沌映射创建迭代推理链的框架,逐渐将 LRMs 引入有害输出。通过将一对一映射嵌入到推理过程中,Mousetrap 有效地捕获了 OpenAI 的 o1-mini 和 Claudesonnet 等模型,成功率高达 98%。

Martin Kuo, Jianyi Zhang, Aolin Ding, Qinsi Wang, Louis DiValentin, Yujia Bao, Wei Wei, Hai Li, and Yiran Chen. 2025. H-cot: Hijacking the chain-ofthought safety reasoning mechanism to jailbreak large reasoning models, including openai o1/o3, deepseek-r1, and gemini 2.0 flash thinking. arXiv preprint arXiv:2502.12893.

🤖Code:GitHub - dukeceicenter/jailbreak-reasoning-openai-o1o3-deepseek-r1

提出了劫持思维链 (H-CoT),它通过注入完全绕过安全检查的执行阶段思想来纵推理过程。他们的方法利用了 LRMs 将问题解决置于安全考虑之上的倾向,导致 OpenAI o1/o3 和 DeepSeek-R1 等模型的拒绝率从 98% 骤降至 2% 以下。这两种方法都表明,旨在增强 LRMs 能力的推理机制在战略性操纵时可能会成为其最重要的安全弱点。


三、LRMs 的防御


结论

本调查全面研究了 LRMs 带来的新安全挑战。我们在这些模型中发现了超越传统 LLMs 的独特漏洞,描绘了安全风险、对抗性攻击媒介和防御策略的前景。通过将这些元素组织成详细的分类法,这项工作旨在促进未来的研究,以提高这些日益强大的 AI 系统的安全性和可靠性,同时保持其卓越的推理能力。

局限性

由于 LRMs 的快速发展性质,这项调查具有固有的局限性。由于 OpenAI 的 o1 系列、DeepSeek-R1 和其他高级推理模型的出现相对较新,因此随着新研究的不断出现,我们的分类法和发现可能会过时。虽然我们努力提供安全挑战、攻击和防御的全面概述,但我们承认,随着该领域的成熟,某些方面可能需要修改。此外,我们对已发表学术文献的依赖可能无法完全涵盖开发这些模型的公司内部进行的专有研究,这可能会在理解行业特定的安全措施方面造成差距。