程序园首页

投稿

HOT

公众号矩阵

潜在对抗检测：大模型激活自适应探测多轮攻击

admin 2026-6-1 18:10 70人围观资讯

今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷，创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案，凭借独创的特征发现与三阶段标注数据集，实现了远优于现有商用安全工具的检测精度与低误报表现 ...

今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷，创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案，凭借独创的特征发现与三阶段标注数据集，实现了远优于现有商用安全工具的检测精度与低误报表现。

一、研究背景：传统文本防御存在致命短板

当下针对大模型提示注入、越狱攻击的防护，都停留在文本表层，依靠关键词匹配、语义过滤等方式拦截攻击。但多轮恶意攻击有固定套路：先建立信任、再悄悄转向话题、最后逐步诱导越界，每一轮单独看都像正常对话，文本防御根本识别不出来。而且传统工具要么漏检多轮攻击，要么把技术讨论、安全咨询误判为攻击，误报率居高不下，还跟不上新型攻击手法的迭代。

二、核心创新：发现「对抗躁动性」特征

本文跳出文本维度，开创性聚焦大模型内部激活值。研究发现：多轮恶意攻击在模型逐层运算的激活向量轨迹上，会产生明显异常 —— 攻击者每切换一个攻击阶段，模型激活值就会发生偏移，累积移动路径长度远高于普通良性对话，论文将这一固有特征命名为对抗躁动性。

研究者提炼出 5 个轨迹量化指标，结合模型原始激活向量，搭建了 LAD 两阶段检测框架：先通过对比学习把激活值转为风格无关表征，再用 XGBoost 分类识别恶意意图。

潜在对抗检测：大模型激活自适应探测多轮攻击

三、实验核心数据与关键结论

研究选用 24B~70B 参数的四款主流大模型，自建含良性 / 转向 / 对抗三阶段标注的合成数据集，同时融合 LMSYS、SafeDialBench 两大真实数据集开展测试。

效果提升：合成数据集上，新增 5 个轨迹特征后，检测准确率从 76。2% 飙升至 93。8%；三数据源融合训练后，最优模型实现 89。4% 检测率、仅 2。4% 误报率。

跨模型特性：对抗躁动特征能在四类模型中稳定复现，但检测探针具有模型特异性，无法跨架构直接迁移。

标签必要性：只用普通二分类标签会导致误报率高达 50%~59%，独有三阶段轮次标签是实现低误报、早检测的关键。

对比优势：主流安全工具多轮攻击检测率仅 20%~29%，高检出率工具误报率达 76%；而 LAD 在保持高检测率的同时，误报率降低 32 倍，且能在攻击完全暴露前的转向阶段提前预警。

四、落地价值与局限

该方案无需改动大模型本身，仅通过挂载激活值钩子即可部署，缓存数据后仅用 CPU 就能迭代优化，可适配真实业务持续更新。局限在于需要模型白盒权限，且每个大模型都要单独训练探针，真实场景冷启动需要积累标注数据，为大模型多轮隐蔽攻击防护提供了全新可行的技术路径。

精彩评论2

gogogo998 2026-6-3 14:22

想要学习

回复
gogogo998 2026-6-3 13:19

支持下。。

回复

我有话说......

相关推荐

黑客现已利用关键 Oracle E-Business 漏洞发起攻击

据威胁情报公司 Defused 称，攻击者已开始利用 Oracle E-Business Suite (EBS) 财务应...

admin2026-07-01

Microsoft 将 Mastra AI 供应链攻击归因于朝鲜黑客

Microsoft 将最近导致超过 140 个 npm 软件包受损的 Mastra AI 供应链攻击归因于朝鲜...

admin2026-06-22

Siemens 称 Desigo CC 文件被安全引擎标记为恶意软件

Siemens 正在通知客户，其 Desigo CC 楼宇管理系统的补丁文件被多个网络安全解决方案...

admin2026-06-12

日本能源公司丢失存储有 1090 万客户数据的硬盘

九州电力株式会社披露了一起物理安全事件，影响了超过 1000 万客户的隐私数据。在一...

admin2026-06-12

The Gentlemen 勒索软件声称有 478 名受害者，可像蠕虫一样传播

对 The Gentlemen 行动的一项新分析显示，这个以经济为动机的威胁组织最初是作为附属...

admin2026-06-12

Silent Ransom Group 通过虚假 IT 支持电话攻击律师事务所

根据网络安全公司 Mandiant 的一份最新报告，Silent Ransom Group 勒索团伙正在积极针...

admin2026-06-08

思科预警 2026 年第 7 个 SD-WAN 零日漏洞已被利用

思科周四向客户通报，其 SD-WAN 产品又发现一个已被在野利用的漏洞——这是 2026 年检...

admin2026-06-08

Meta 称约 2 万个 Instagram 账户因 AI 工具遭滥用而被黑

Meta 表示，在最近一起滥用 AI 驱动的账户恢复支持工具的攻击中，约有 2 万个 Instagr...

admin2026-06-08

热门内容

编辑推荐

相关专题

黑客现已利用关键 Oracle E-Business 漏洞发起攻击 2026-07-01

Microsoft 将 Mastra AI 供应链攻击归因于朝鲜黑客 2026-06-22

大神推荐阅读

程序园事务

修改用户名申请勋章猛犸象科技程序园社区问答库

联系我们

关于我们加入我们企业文化企业荣誉

关注我们，扫码加入公众号

QQ客服1 QQ客服2

违法和不良信息举报电话：010-6688xxxx | 举报邮箱：102@cxy5.com | 网上有害信息举报
 程序园 | 猛犸象科技旗下站点 | 粤ICP备2021058574号-1 | ©2026 Powered by Discuz!提供动力支持