MIT何恺明团队发布连续扩散语言模型ELF
继图像生成领域取得突破后,MIT何恺明团队近日发布全新连续扩散语言模型ELF(Embedded Language Flows),首次将文本生成完整保留在连续embedding空间内,仅在最后一步完成离散化转换。
核心创新:告别token级监督
传统扩散模型在图像领域已相当成熟,但语言由离散token组成,直接迁移面临天然障碍。此前不少连续扩散文本模型在去噪轨迹中反复引入token级交叉熵监督,或依赖额外独立解码器,导致方法复杂且效果受限。
ELF的核心突破在于:将全部去噪过程保留在连续embedding空间,仅在最终时间步t=1时,才通过共享权重网络将连续表示重新投回token。具体实现上,离散token先被编码为连续embedding并加噪成z_t,模型在大多数步骤中仅负责预测干净embedding(MSE),直到最后一步才执行token预测(CE)。
值得注意的是,ELF采用了何恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》中提出的思路。研究发现,高维表示(如768维或更高)上v-prediction效果更稳定,且与最终「预测干净token」目标天然对齐。实验同时表明,一旦共享权重,v-prediction效果明显变差,因此ELF仅在最后时间步使用去噪预测。
训练效率一个数量级提升
在OpenWebText无条件生成评测中,105M参数的ELF-B用32步采样达到约24.1的Gen. PPL,优于多种离散和连续扩散语言模型基线。
更值得关注的是其训练效率:ELF-B仅使用约45B训练token,而对比方法通常超过500B,训练数据量减少约一个数量级。这一结果表明,连续扩散路线在语言建模中并未被「语言离散性」堵死,此前的问题更可能出在建模接口和采样设计上。
技术启示
ELF的成功验证了连续扩散范式在语言建模中的可行性,为非自回归文本生成提供了新思路。在大规模语言模型竞争日趋激烈的背景下,这种「以少胜多」的训练效率优势,或将开辟新的研究方向。