MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Anthropic披露三大AI智能体安全架构:用沙箱与虚拟机锁死数据外泄

Anthropic发布技术博客详解Claude、Claude Code与Claude Cowork三款产品的安全架构演进,揭示传统模型层审批的局限性,强调环境层物理隔离才是防止数据外泄的关键防线。

References

Anthropic于5月27日发布技术博客,系统公开了旗下Claude、Claude Code与Claude Cowork三款智能体产品的安全架构演进细节。博客指出,随着大模型能力上限不断突破,传统的用户手动审批机制不仅引发严重的"审批疲劳"问题,概率性的模型层拦截也存在不可忽视的漏报风险。要真正锁死数据外泄,必须以环境层的物理容器与虚拟机隔离作为第一道硬性防线。

从审批疲劳到操作系统级沙箱

在命令行工具Claude Code中,早期版本依靠开发者手动审批每一轮网络与写入指令。然而内部遥测数据显示,频繁弹窗导致用户平均通过率高达93%,审批机制形同虚设。为降低审批成本,Anthropic引入了操作系统级沙箱——macOS平台使用Seatbelt,Linux平台使用bubblewrap——默认在工作区内静默运行但彻底拦截网络,成功减少84%的弹窗打扰。即便后续上线的自动模式使用小型分类器代劳,分类器的漏拦率仍高达17%,证明物理沙箱仍是安全基底。

红队演练揭示的严峻挑战

博客披露了一次内部红队演练的惊人结果:安全研究员通过钓鱼手段诱导员工在终端运行普通指令,成功诱骗Claude读取本地~/.aws/credentials凭证并外发。测试共进行25次,Claude在24次中成功实现数据外泄,胜率高达96%。这一结果证明,如果指令直接来自用户而非通过模型层处理,模型层防御将彻底失效,只有环境层的出站流量拦截(Egress Controls)和文件控制才是真正的底线。

值得注意的是,这并非理论上的风险。安全研究机构Check Point Research最新报告披露,Claude Code存在通过恶意项目配置文件实现远程代码执行与API凭证外泄的严重漏洞CVE-2025-59536,攻击者可利用Hooks、MCP服务器及环境变量等配置机制发起攻击。

漏洞披露争议

台湾国立阳明交通大学資訊技術服務中心引述的研究报告显示,Anthropic在2025年10月至2026年4月期间,悄悄修補了Claude Code两个沙箱绕过漏洞,却未发布任何资安公告。其中首個漏洞CVE-2025-66479位于Sandbox Runtime,当用户沙箱政策原本未配置任何允许网域时,漏洞会导致网络沙箱失效;第二项SOCKS5主机名空字节注入漏洞则可让攻击者通过\x00字符绕过白名单限制。

研究人员批评Anthropic在长达5个半月、130多个版本中未向用户发出任何安全提醒,违反了负责任漏洞披露原则。Daily Security Review指出,第二项漏洞直到本月才被公开披露,而此时Anthropic已在3月完成修补。

企业产品的终极隔离方案

企业通用办公产品Claude Cowork采取了更为极端的安全边界,将运行环境完全置于独立的Linux虚拟机中——macOS平台基于Apple Virtualization框架,Windows平台基于HCS——使宿主机的凭证与文件对虚拟机完全不可见。

但第三方披露表明,由于出站白名单默认放行了api.anthropic.com,恶意工作区文件曾诱导Claude读取本地敏感数据,并通过攻击者的API密钥直接将文件上传至攻击者个人账户,实现了对虚拟机出站拦截的绕过。Anthropic随后在虚拟机内侧部署了防御型中间人代理(MITM Proxy),强制过滤所有发往官方API的流量,只放行携带本轮虚拟机session token的请求,直接拒绝攻击者嵌入的外部密钥。

Anthropic强调,这一系列架构演进的核心思路是:安全不能依赖模型层的概率判断,必须在环境层建立物理隔离的硬性防线。