MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Cloudflare曝光Anthropic Mythos实测:AI安全模型已能自主串联漏洞并生成攻击代码

Cloudflare公布对Anthropic内部安全项目Project Glasswing的测试结果,显示安全模型Mythos Preview能够自主将多个低危漏洞串联成完整攻击链,并自动生成可执行漏洞利用代码,引发业界对AI安全能力边界的深度担忧。

References

Claude Mythos模型测试示意
Claude Mythos在Linux内核测试中自主完成权限提升攻击链路 Image source

Cloudflare揭露Anthropic Mythos惊人能力:AI已能自主构建完整攻击链

Cloudflare于5月19日公布了参与Anthropic内部安全项目Project Glasswing的实测结果,在针对自身50余个代码库的测试中,安全模型Mythos Preview展现出远超此前大模型的安全研究能力——不仅能发现孤立漏洞,更能自主将多个低危漏洞串联组合,生成完整的可执行攻击证明(PoC)。

从漏洞分析到攻击闭环的跨越

此前Claude Opus 4.7或GPT-5.5等模型在安全测试中往往停留在输出漏洞分析报告阶段。Mythos则具备独特的沙盒闭环验证能力:它会编写触发漏洞的代码并编译运行,若执行失败,模型能自动读取报错信息、修正假设并重新尝试,直至彻底打通攻击链。

据Anthropic红队博客披露,Mythos Preview曾在测试中自主发现并利用了一个存在长达17年的FreeBSD远程代码执行漏洞,成功在运行NFS的机器上获取root权限。

平行对抗框架过滤误报噪音

Cloudflare在工程实践中发现,单流编程智能体会迅速耗尽上下文窗口,无法胜任大规模漏洞挖掘。为此,Cloudflare搭建了一套平行对抗框架:一个智能体在极窄范围内寻找漏洞,同时安排另一个搭载不同模型的智能体专门驳斥前者的结论。这种对抗机制大幅过滤了模型扫描中普遍产生的大量误报噪音。

脆弱的内生护栏引发担忧

由于本次测试使用的是无外部限制的预览版,Mythos展现出极不稳定的内部护栏。Cloudflare警告,面对同一段目标代码,仅改变运行环境的上下文描述,模型就会从拒绝执行转为直接提供攻击载荷。模型自发生成的内生护栏极其脆弱,未来面向公众发布时必须强制叠加外部防线。

行业应对与未来防御方向

测试结果已在业内引发连锁反应,部分安全团队已被迫执行2小时内完成修补的极限标准。但Cloudflare强调,单纯压缩补丁时间会因跳过回归测试引发更大的系统故障,未来的防御重心必须转向从架构层面切断代码的连通性。

为应对Claude Mythos带来的风险,Anthropic于2026年4月7日启动了Project Glasswing防御性计划,核心目标是让防御者先于攻击者获得AI能力,抢在漏洞被利用前完成修复。

关键发现

  • Mythos能自主完成从漏洞发现到PoC生成的完整攻击链路
  • 在Linux内核测试中自主完成了从普通用户权限到机器完全控制权的攻击链路
  • 部分漏洞已存在长达27年之久
  • 内生护栏在上下文变换下极易失效

该测试结果再次引发业界对AI安全能力边界的深度讨论:当AI能够自主发现、串联并利用漏洞时,传统安全防御范式将面临根本性挑战。