web-supplemented 2026-05-14 10:52 MiniMax-M2.7

AI网络攻击能力每4.7个月翻倍，Claude与GPT-5.5打破安全评估上限

英国AI安全研究所（AISI）报告显示，AI自主执行网络安全任务的能力正超预期爆发，Claude Mythos Preview和GPT-5.5已在受控测试中接近100%成功率并突破现有评估体系上限。

ai安全网络安全aisiclaudegpt-5.5人工智能大模型

References

英国AI安全研究所（AISI）近日发布前沿AI趋势报告，揭示了一个值得警惕的信号：AI自主执行网络安全任务的能力正在以超预期的速度爆发。自2024年底以来，AI能够独立完成的网络任务复杂度，每4.7个月就会翻一番，这一增速远超此前的预估。

更值得关注的是，Anthropic的Claude Mythos Preview和OpenAI的GPT-5.5在这轮能力跃升中尤为突出。在AISI人为设置的算力上限条件下——单次任务限制在250万token——这两款模型在耗时12小时的最高难度任务中，依然取得了接近100%的成功率。报告坦承，这两项指标已经触及了现有测试集所能衡量的能力上限，意味着传统的评估体系正在被快速击穿。

GPT-5.5因此成为继Claude Mythos之后，第二个能够自主完成32步企业级黑客模拟攻击的AI模型。在AISI设置的企业网络靶场（Cyber Ranges）测试中，新版Claude Mythos Preview首次将两个攻击场景全部打通：在难度极高的"The Last Ones"靶场中完成10次尝试成功6次，更成为首个攻破"冷却塔"（Cooling Tower）高难度靶场的模型（10次尝试成功3次）。GPT-5.5则在"The Last Ones"靶场中取得10次尝试成功3次的成绩。

一个更具冲击力的对比来自资安公司Crystal Peak Security设计的专家级逆向工程挑战"rust_vm"：人类专家使用Binary Ninja、Z3等业界标准工具需要约12小时才能解出，而GPT-5.5在配备代理程序的Kali Linux容器环境中仅用10分22秒便完成，API调用成本仅1.73美元。

AISI在报告中指出，前沿模型的网络攻防能力进化节奏已从「以年计」切换到「以月计」。现有的安全评估体系正被快速突破，留给企业建立防御机制的窗口期正在急剧收窄。

相关文章