本文来源: admin
4
|
今天介绍的这篇论文直击传统大模型文本层安全防御的固有缺陷,创新性提出基于模型内部激活轨迹的多轮隐蔽攻击检测方案,凭借独创的特征发现与三阶段标注数据集,实现了远优于现有商用安全工具的检测精度与低误报表现。 一、研究背景:传统文本防御存在致命短板 当下针对大模型提示注入、越狱攻击的防护,都停留在文本表层,依靠关键词匹配、语义过滤等方式拦截攻击。但多轮恶意攻击有固定套路:先建立信任、再悄悄转向话题、最后逐步诱导越界,每一轮单独看都像正常对话,文本防御根本识别不出来。而且传统工具要么漏检多轮攻击,要么把技术讨论、安全咨询误判为攻击,误报率居高不下,还跟不上新型攻击手法的迭代。 二、核心创新:发现「对抗躁动性」特征 本文跳出文本维度,开创性聚焦大模型内部激活值。研究发现:多轮恶意攻击在模型逐层运算的激活向量轨迹上,会产生明显异常 —— 攻击者每切换一个攻击阶段,模型激活值就会发生偏移,累积移动路径长度远高于普通良性对话,论文将这一固有特征命名为对抗躁动性。 研究者提炼出 5 个轨迹量化指标,结合模型原始激活向量,搭建了 LAD 两阶段检测框架:先通过对比学习把激活值转为风格无关表征,再用 XGBoost 分类识别恶意意图。 ![]() 三、实验核心数据与关键结论 研究选用 24B~70B 参数的四款主流大模型,自建含良性 / 转向 / 对抗三阶段标注的合成数据集,同时融合 LMSYS、SafeDialBench 两大真实数据集开展测试。 效果提升:合成数据集上,新增 5 个轨迹特征后,检测准确率从 76。2% 飙升至 93。8%;三数据源融合训练后,最优模型实现 89。4% 检测率、仅 2。4% 误报率。 跨模型特性:对抗躁动特征能在四类模型中稳定复现,但检测探针具有模型特异性,无法跨架构直接迁移。 标签必要性:只用普通二分类标签会导致误报率高达 50%~59%,独有三阶段轮次标签是实现低误报、早检测的关键。 对比优势:主流安全工具多轮攻击检测率仅 20%~29%,高检出率工具误报率达 76%;而 LAD 在保持高检测率的同时,误报率降低 32 倍,且能在攻击完全暴露前的转向阶段提前预警。 四、落地价值与局限 该方案无需改动大模型本身,仅通过挂载激活值钩子即可部署,缓存数据后仅用 CPU 就能迭代优化,可适配真实业务持续更新。局限在于需要模型白盒权限,且每个大模型都要单独训练探针,真实场景冷启动需要积累标注数据,为大模型多轮隐蔽攻击防护提供了全新可行的技术路径。 |
Check Point 在上周发布的分析报告中指出,被称为 Nimbus Manticore(又名 Screening ...
美国电信巨头 Charter Communications 确认,在勒索组织 ShinyHunters 威胁除非支付赎...
Check Point 在上周发布的分析报告中指出,被称为 Nimbus Manticore(又名 Screening ...
“快速页面 / 文章重定向”(Quick Page/Post Redirect)插件安装量超 7 万,5 年前被...
多个官方 SAP npm 软件包疑似遭 TeamPCP 供应链攻击,被入侵后用于窃取开发者系统中的...
应用安全公司 Aisle 在开源电子病历平台 OpenEMR 中发现了数十个漏洞,其中包括一些可...
Forescout 的研究显示,数百万远程访问的 RDP 和 VNC 服务器暴露在互联网上,其中数百...
一个严重漏洞影响了除最新版本之外的所有 cPanel 及 WebHost Manager(WHM)控制面板...