MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

何恺明团队发布ELF:连续扩散语言模型突破,45B tokens训练超越GPT路线

MIT何恺明团队发布连续扩散语言模型ELF,在连续embedding空间完成去噪直至最终离散化,在仅45B训练tokens下达到优于500B+ tokens训练基线的生成质量。

References

MIT何恺明团队发布连续扩散语言模型ELF

继图像生成领域取得突破后,MIT何恺明团队近日发布全新连续扩散语言模型ELF(Embedded Language Flows),首次将文本生成完整保留在连续embedding空间内,仅在最后一步完成离散化转换。

核心创新:告别token级监督

传统扩散模型在图像领域已相当成熟,但语言由离散token组成,直接迁移面临天然障碍。此前不少连续扩散文本模型在去噪轨迹中反复引入token级交叉熵监督,或依赖额外独立解码器,导致方法复杂且效果受限。

ELF的核心突破在于:将全部去噪过程保留在连续embedding空间,仅在最终时间步t=1时,才通过共享权重网络将连续表示重新投回token。具体实现上,离散token先被编码为连续embedding并加噪成z_t,模型在大多数步骤中仅负责预测干净embedding(MSE),直到最后一步才执行token预测(CE)。

值得注意的是,ELF采用了何恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》中提出的思路。研究发现,高维表示(如768维或更高)上v-prediction效果更稳定,且与最终「预测干净token」目标天然对齐。实验同时表明,一旦共享权重,v-prediction效果明显变差,因此ELF仅在最后时间步使用去噪预测。

训练效率一个数量级提升

在OpenWebText无条件生成评测中,105M参数的ELF-B用32步采样达到约24.1的Gen. PPL,优于多种离散和连续扩散语言模型基线。

更值得关注的是其训练效率:ELF-B仅使用约45B训练token,而对比方法通常超过500B,训练数据量减少约一个数量级。这一结果表明,连续扩散路线在语言建模中并未被「语言离散性」堵死,此前的问题更可能出在建模接口和采样设计上。

技术启示

ELF的成功验证了连续扩散范式在语言建模中的可行性,为非自回归文本生成提供了新思路。在大规模语言模型竞争日趋激烈的背景下,这种「以少胜多」的训练效率优势,或将开辟新的研究方向。