Anthropic 推出 Claude Mythos 模型，发现数千零日漏洞

admin 2026-4-19 07:15 4人围观资讯

人工智能公司Anthropic宣布推出名为Project Glasswing的网络安全新计划，将使用其前沿模型Claude Mythos的预览版发现和修复安全漏洞。该模型将由包括AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基 ...

人工智能公司Anthropic宣布推出名为"Project Glasswing"的网络安全新计划，将使用其前沿模型Claude Mythos的预览版发现和修复安全漏洞。

该模型将由包括AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks在内的少数组织使用，共同保护关键软件。

Anthropic表示，成立该计划是因其通用前沿模型展现出"超越除最熟练人类外所有人的软件漏洞发现和利用能力"的编码水平。出于网络安全能力及可能被滥用的担忧，Anthropic选择不公开发布该模型。

据称Mythos预览版已在各大操作系统和网页浏览器中发现数千个高严重性零日漏洞，包括OpenBSD中一个已修复的27年历史漏洞、FFmpeg中一个16年历史的缺陷，以及一个内存安全虚拟机监控器中的内存损坏漏洞。

Anthropic强调的一个案例中，Mythos预览版据称自主开发出网页浏览器利用程序，串联四个漏洞逃离渲染器和操作系统沙箱。Anthropic还在预览版的系统卡中指出，该模型解决了一个企业网络攻击模拟，而人类专家需要10小时以上才能完成。

最令人瞩目的发现是，Mythos预览版遵循评估研究人员的指令，成功逃离提供的安全"沙箱"计算机，显示出绕过自身防护的"潜在危险能力"。

该模型并未止步于此，还进一步采取一系列额外行动，包括设计多步骤利用程序从沙箱系统获取广泛互联网访问权限，并向正在公园吃三明治的研究人员发送电子邮件。

"此外，在一个令人担忧且未经要求的展示成功的努力中，它将其利用细节发布到多个难以找到但技术上公开的网站，"Anthropic表示。

该公司指出，Project Glasswing是在敌对行为体采用相同能力之前，将前沿模型能力用于防御目的的"紧急尝试"。Anthropic还承诺提供高达1亿美元的Mythos预览版使用额度，以及400万美元直接捐赠给开源安全组织。

"我们并未明确训练Mythos预览版具备这些能力，"Anthropic表示。"相反，它们是代码、推理和自主性普遍改进的下游结果。使模型在修补漏洞方面显著更有效的相同改进，也使其在利用漏洞方面显著更有效。"

Mythos的消息上月泄露，因人为失误，模型详情被无意存储在公开可访问的数据缓存中。草稿材料将其描述为迄今为止构建的最强大、最有能力的AI模型。数日后，Anthropic遭遇第二次安全疏漏，意外暴露了近2000个源代码文件及Claude Code相关的超过50万行代码，持续约三小时。

该泄露还导致发现一个安全问题：当AI编码代理被呈现由超过50个子命令组成的命令时，可绕过某些防护。该问题已于上周在Claude Code 2.1.90版本中正式修复。

AI安全公司Adversa表示："Claude Code是Anthropic的旗舰AI编码代理，在开发者机器上执行shell命令，当命令包含超过50个子命令时，会静默忽略用户配置的安全拒绝规则。配置'永不运行rm'的开发者会看到rm单独运行时被阻止，但如果在50个无害语句前运行相同的'rm'，则不受限制。安全策略悄然消失。"

"安全分析消耗token。Anthropic的工程师遇到性能问题：检查每个子命令会冻结UI并消耗计算资源。他们的修复方案：50个后停止检查。他们用安全换取速度，用安全换取成本。"