传统训练瓶颈催生新思路
大模型训练长期面临显存消耗急剧攀升的难题。传统反向传播要求整个模型在梯度计算过程中保持激活状态,导致显存需求随模型层数线性增长,成为制约模型扩展的主要瓶颈之一。
DiffusionBlocks:分块训练的扩散式重诠释
Sakana AI联合东京大学在ICLR 2026大会上发表的DiffusionBlocks框架,为这一难题提供了创新解法。该框架的核心思路是将基于Transformer的神经网络划分为多个独立可训练的模块(blocks),并将这些分块更新重新解释为扩散模型的逆向去噪过程。
通过**评分匹配(score matching)**目标函数,每个模块可以在仅加载一个区块的情况下完成独立训练,而非抽样区块既无需载入显存,也无需参与计算。这一机制使得显存消耗能够与分块数量B成正比地降低——若有B个模块,每次仅需原始显存需求的1/B。
多架构验证,性能不打折
研究团队在多种Transformer架构上进行了实验验证,包括视觉Transformer、DiT图像生成模型、自回归文本生成模型、循环深度模型(Looped Transformer)以及掩码扩散模型。结果表明,DiffusionBlocks分块训练不仅显存占用极低,在各项任务中均能匹配甚至超越传统端到端训练效果。
对于依赖高开销跨时间步反向传播(BPTT)的循环深度模型,DiffusionBlocks的优势尤为突出:该框架通过模拟逐步逼近目标的动态过程,仅需单次前向传播即可完成参数更新,同时在推理阶段完整保留原有的K次迭代机制,显著削减了训练阶段的计算开支。
该论文已发表于arXiv(编号2506.14202),并在ICLR 2026会议上进行海报展示。