本文来源: admin
46
|
今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷,创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案,凭借独创的特征发现与三阶段标注数据集,实现了远优于现有商用安全工具的检测精度与低误报表现。 一、研究背景:传统文本防御存在致命短板 当下针对大模型提示注入、越狱攻击的防护,都停留在文本表层,依靠关键词匹配、语义过滤等方式拦截攻击。但多轮恶意攻击有固定套路:先建立信任、再悄悄转向话题、最后逐步诱导越界,每一轮单独看都像正常对话,文本防御根本识别不出来。而且传统工具要么漏检多轮攻击,要么把技术讨论、安全咨询误判为攻击,误报率居高不下,还跟不上新型攻击手法的迭代。 二、核心创新:发现「对抗躁动性」特征 本文跳出文本维度,开创性聚焦大模型内部激活值。研究发现:多轮恶意攻击在模型逐层运算的激活向量轨迹上,会产生明显异常 —— 攻击者每切换一个攻击阶段,模型激活值就会发生偏移,累积移动路径长度远高于普通良性对话,论文将这一固有特征命名为对抗躁动性。 研究者提炼出 5 个轨迹量化指标,结合模型原始激活向量,搭建了 LAD 两阶段检测框架:先通过对比学习把激活值转为风格无关表征,再用 XGBoost 分类识别恶意意图。 ![]() 三、实验核心数据与关键结论 研究选用 24B~70B 参数的四款主流大模型,自建含良性 / 转向 / 对抗三阶段标注的合成数据集,同时融合 LMSYS、SafeDialBench 两大真实数据集开展测试。 效果提升:合成数据集上,新增 5 个轨迹特征后,检测准确率从 76。2% 飙升至 93。8%;三数据源融合训练后,最优模型实现 89。4% 检测率、仅 2。4% 误报率。 跨模型特性:对抗躁动特征能在四类模型中稳定复现,但检测探针具有模型特异性,无法跨架构直接迁移。 标签必要性:只用普通二分类标签会导致误报率高达 50%~59%,独有三阶段轮次标签是实现低误报、早检测的关键。 对比优势:主流安全工具多轮攻击检测率仅 20%~29%,高检出率工具误报率达 76%;而 LAD 在保持高检测率的同时,误报率降低 32 倍,且能在攻击完全暴露前的转向阶段提前预警。 四、落地价值与局限 该方案无需改动大模型本身,仅通过挂载激活值钩子即可部署,缓存数据后仅用 CPU 就能迭代优化,可适配真实业务持续更新。局限在于需要模型白盒权限,且每个大模型都要单独训练探针,真实场景冷启动需要积累标注数据,为大模型多轮隐蔽攻击防护提供了全新可行的技术路径。 |
Siemens 正在通知客户,其 Desigo CC 楼宇管理系统的补丁文件被多个网络安全解决方案...
九州电力株式会社披露了一起物理安全事件,影响了超过 1000 万客户的隐私数据。 在一...
对 The Gentlemen 行动的一项新分析显示,这个以经济为动机的威胁组织最初是作为附属...
根据网络安全公司 Mandiant 的一份最新报告,Silent Ransom Group 勒索团伙正在积极针...
思科周四向客户通报,其 SD-WAN 产品又发现一个已被在野利用的漏洞——这是 2026 年检...
Meta 表示,在最近一起滥用 AI 驱动的账户恢复支持工具的攻击中,约有 2 万个 Instagr...
美国网络安全与基础设施安全局(CISA)已将影响 SolarWinds Serv-U 多协议文件服务器...
Gamaredon 利用 WinRAR 漏洞向乌克兰目标投递近乎无文件的模块化恶意软件,将载荷隐藏...