字节跳动Seed团队开源Cola DLM,革新大语言模型生成范式
字节跳动Seed团队近日正式开源Cola DLM(Continuous Latent Diffusion Language Model),这是一套连续潜在扩散语言模型,旨在突破传统大语言模型从左到右逐token生成的固定路径限制,实现「先组织高层语义、再落回具体文字」的革新生成方式。
技术架构:Text VAE + Block-causal DiT
Cola DLM的核心架构由两部分组成:Text VAE负责将离散文本映射到连续潜在空间,Block-causal DiT则通过Flow Matching学习潜在先验,最后由条件解码器将潜在变量还原成文本。值得注意的是,该扩散过程处理的是潜在语义表示,而非直接在token层面反复去噪,这从根本上区别于传统的自回归(AR)模型。
参数规模与性能表现
本次开源版本属于2B级模型,具体为约23亿总参数,其中核心DiT为18亿参数,另含5亿参数VAE。在LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze等8项评测中,Cola DLM在统一生成式评测协议下已展现出与同规模自回归/LLaDA基线竞争的scaling表现,并在最终平均分上达到最优结果。
定位与局限
尽管性能亮眼,但官方明确指出该模型仍属于研究型checkpoint,并非可直接使用的对话模型。Cola DLM未经指令微调和RLHF训练,主要用途是探索连续潜在扩散技术在文本生成领域的可行性。
未来展望
团队透露,论文已展示了向文本-图像统一建模扩展的初步实验,但本次开源仓库仅包含文本管线。这也延续了Seed团队此前在Seed Diffusion Preview上的探索路径——该实验性扩散语言模型曾在代码生成领域实现每秒2146 tokens的推理速度,较同等规模自回归模型提速5.4倍。
Cola DLM现已在HuggingFace开源,研究者可前往ByteDance-Seed/Cola-DLM获取模型权重与相关代码。