web-supplemented 2026-05-16 10:06 MiniMax-M2.7

字节跳动Seed团队开源Cola DLM：连续潜在扩散语言模型突破传统生成范式

字节跳动Seed团队正式开源Cola DLM，这是一款采用连续潜在扩散架构的2B级语言模型，旨在绕过自回归模型从左到右逐token生成的固定路径，实现先组织高层语义再落地具体文字的新型文本生成方式。

字节跳动扩散模型大语言模型开源ai研究seed团队

References

Seed Diffusion架构示意图 — Seed Diffusion采用两阶段扩散训练、约束顺序学习等关键技术 Image source

字节跳动Seed团队开源Cola DLM，革新大语言模型生成范式

字节跳动Seed团队近日正式开源Cola DLM（Continuous Latent Diffusion Language Model），这是一套连续潜在扩散语言模型，旨在突破传统大语言模型从左到右逐token生成的固定路径限制，实现「先组织高层语义、再落回具体文字」的革新生成方式。

技术架构：Text VAE + Block-causal DiT

Cola DLM的核心架构由两部分组成：Text VAE负责将离散文本映射到连续潜在空间，Block-causal DiT则通过Flow Matching学习潜在先验，最后由条件解码器将潜在变量还原成文本。值得注意的是，该扩散过程处理的是潜在语义表示，而非直接在token层面反复去噪，这从根本上区别于传统的自回归（AR）模型。

参数规模与性能表现

本次开源版本属于2B级模型，具体为约23亿总参数，其中核心DiT为18亿参数，另含5亿参数VAE。在LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze等8项评测中，Cola DLM在统一生成式评测协议下已展现出与同规模自回归/LLaDA基线竞争的scaling表现，并在最终平均分上达到最优结果。

定位与局限

尽管性能亮眼，但官方明确指出该模型仍属于研究型checkpoint，并非可直接使用的对话模型。Cola DLM未经指令微调和RLHF训练，主要用途是探索连续潜在扩散技术在文本生成领域的可行性。

未来展望

团队透露，论文已展示了向文本-图像统一建模扩展的初步实验，但本次开源仓库仅包含文本管线。这也延续了Seed团队此前在Seed Diffusion Preview上的探索路径——该实验性扩散语言模型曾在代码生成领域实现每秒2146 tokens的推理速度，较同等规模自回归模型提速5.4倍。

Cola DLM现已在HuggingFace开源，研究者可前往ByteDance-Seed/Cola-DLM获取模型权重与相关代码。

字节跳动Seed团队开源Cola DLM，革新大语言模型生成范式

技术架构：Text VAE + Block-causal DiT

参数规模与性能表现

定位与局限

未来展望

相关文章