web-supplemented 2026-05-13 12:43 MiniMax-M2.7

何恺明团队发布ELF：连续扩散语言模型突破，45B tokens训练超越GPT路线

MIT何恺明团队发布连续扩散语言模型ELF，在连续embedding空间完成去噪直至最终离散化，在仅45B训练tokens下达到优于500B+ tokens训练基线的生成质量。

elf扩散模型语言模型何恺明MIT生成式AI

References

MIT何恺明团队发布连续扩散语言模型ELF

继图像生成领域取得突破后，MIT何恺明团队近日发布全新连续扩散语言模型ELF（Embedded Language Flows），首次将文本生成完整保留在连续embedding空间内，仅在最后一步完成离散化转换。

核心创新：告别token级监督

传统扩散模型在图像领域已相当成熟，但语言由离散token组成，直接迁移面临天然障碍。此前不少连续扩散文本模型在去噪轨迹中反复引入token级交叉熵监督，或依赖额外独立解码器，导致方法复杂且效果受限。

ELF的核心突破在于：将全部去噪过程保留在连续embedding空间，仅在最终时间步t=1时，才通过共享权重网络将连续表示重新投回token。具体实现上，离散token先被编码为连续embedding并加噪成z_t，模型在大多数步骤中仅负责预测干净embedding（MSE），直到最后一步才执行token预测（CE）。

值得注意的是，ELF采用了何恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》中提出的思路。研究发现，高维表示（如768维或更高）上v-prediction效果更稳定，且与最终「预测干净token」目标天然对齐。实验同时表明，一旦共享权重，v-prediction效果明显变差，因此ELF仅在最后时间步使用去噪预测。

训练效率一个数量级提升

在OpenWebText无条件生成评测中，105M参数的ELF-B用32步采样达到约24.1的Gen. PPL，优于多种离散和连续扩散语言模型基线。

更值得关注的是其训练效率：ELF-B仅使用约45B训练token，而对比方法通常超过500B，训练数据量减少约一个数量级。这一结果表明，连续扩散路线在语言建模中并未被「语言离散性」堵死，此前的问题更可能出在建模接口和采样设计上。

技术启示

ELF的成功验证了连续扩散范式在语言建模中的可行性，为非自回归文本生成提供了新思路。在大规模语言模型竞争日趋激烈的背景下，这种「以少胜多」的训练效率优势，或将开辟新的研究方向。

MIT何恺明团队发布连续扩散语言模型ELF

核心创新：告别token级监督

训练效率一个数量级提升

技术启示

相关文章