MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

DeepSeek「数据泄露」真相:实为训练数据提取,非多租户隔离失效

DeepSeek模型被指存在"数据泄露漏洞"引发关注,但技术分析表明该现象属于大模型共有的训练数据记忆提取,而非多租户隔离问题。

References

DeepSeek「数据泄露」真相:实为训练数据提取,非多租户隔离失效

近日,社交平台上一则关于 DeepSeek 对话框输入特殊标记即可「看到其他用户历史对话」的消息引发广泛关注。该说法将这一现象定性为 P0 级多租户隔离失效,引发用户恐慌。然而,深度技术分析表明,情况远比最初描述的复杂。

现象背后的技术原理

据 GitHub 上 deepseek-ai/DeepSeek-R1 项目的 Issue #840 显示,安全研究人员在 DeepSeek 对话系统中发现,在空对话中仅发送字符串 <think(不闭合标签),模型会返回其他用户的对话历史片段。这一现象与多租户隔离无关——DeepSeek 产品的后端并非开源,模型本身是开源的,可以离线运行,但本次漏洞与模型权重无关。

技术分析指出,当用户在输入框内输入 `` 或 <|begin_of_sentence|> 等特殊标记时,模型会被「骗」进训练时的格式模式。这些特殊 token 可能是 DeepSeek 在监督微调(SFT)阶段使用的内部控制 token,通常隐藏在聊天模板内部。当用户手动输入这些 token 时,相当于完全绕过了正常界面,强行将模型推入一种「从训练样本继续生成」的 mode。

由于 SFT 数据集中包含大量高质量的逐步推理轨迹,模型会随机挑选其中一条并从输入点继续生成。因此,每次输入相同内容可能得到截然不同的结果——第一次可能是三角函数解题过程,第二次则可能是关于量化技术的详细解释。

并非 DeepSeek 独有,学术界早有研究

这种现现象在学术界称为「训练数据记忆提取」(Training Data Extraction),是所有大模型的共性问题,并非 DeepSeek 独有。Google DeepMind 早在 2023 年就发表过专门研究(arXiv:2406.08464),证明用特殊输入可以从 GPT、PaLM 等主流模型中套出训练数据。ICLR 2025 收录的 Magpie 论文更是直接把这个机制当工具使用,给对齐后的模型喂模板 token 就能批量提取训练数据。

为什么不是多租户隔离问题

针对「泄露内容包含今天日期」这一反驳证据,技术分析指出:DeepSeek 每个会话的系统提示词里都写着当天日期,模型生成的内容自然会包含这个日期,但这不能证明内容来自另一个真实用户。要证明是多租户隔离问题,需要确认泄露的信息确实属于某个真实存在的其他用户,目前没有任何证据支持这一点。

这一事件再次提醒公众:大模型的安全问题需要区分不同层面——开源模型本身的安全与部署在后端服务中的安全问题可能完全不同,普通用户看到的「漏洞」未必是真正的数据泄露。