web-supplemented 2026-05-28 19:03 MiniMax-M2.7

Sakana AI与东京大学推出DiffusionBlocks：分块训练将大模型显存需求降至B分之一

Sakana AI联合东京大学在ICLR 2026上发表DiffusionBlocks框架，通过将神经网络划分为独立可训练模块并重新解释为扩散去噪过程，实现显存消耗与模块数量成比例降低。

diffusionblockssakana aiiclr 2026分块训练大模型训练显存优化transformer东京大学

References

Introducing DiffusionBlocks: Block-wise Neural Network Training via ...
GitHub - SakanaAI/DiffusionBlocks: DiffusionBlocks: Block-wise Neural Network Training via Diffusion Interpretation · GitHub
[PDF] DiffusionBlocks: Block-wise Neural Network Training via Diffusion ...

DiffusionBlocks框架工作原理示意图 — DiffusionBlocks将传统端到端训练转换为模块独立训练流程，图片来源：Sakana AI GitHub Image source

传统训练瓶颈催生新思路

大模型训练长期面临显存消耗急剧攀升的难题。传统反向传播要求整个模型在梯度计算过程中保持激活状态，导致显存需求随模型层数线性增长，成为制约模型扩展的主要瓶颈之一。

DiffusionBlocks：分块训练的扩散式重诠释

Sakana AI联合东京大学在ICLR 2026大会上发表的DiffusionBlocks框架，为这一难题提供了创新解法。该框架的核心思路是将基于Transformer的神经网络划分为多个独立可训练的模块（blocks），并将这些分块更新重新解释为扩散模型的逆向去噪过程。

通过**评分匹配（score matching）**目标函数，每个模块可以在仅加载一个区块的情况下完成独立训练，而非抽样区块既无需载入显存，也无需参与计算。这一机制使得显存消耗能够与分块数量B成正比地降低——若有B个模块，每次仅需原始显存需求的1/B。

多架构验证，性能不打折

研究团队在多种Transformer架构上进行了实验验证，包括视觉Transformer、DiT图像生成模型、自回归文本生成模型、循环深度模型（Looped Transformer）以及掩码扩散模型。结果表明，DiffusionBlocks分块训练不仅显存占用极低，在各项任务中均能匹配甚至超越传统端到端训练效果。

对于依赖高开销跨时间步反向传播（BPTT）的循环深度模型，DiffusionBlocks的优势尤为突出：该框架通过模拟逐步逼近目标的动态过程，仅需单次前向传播即可完成参数更新，同时在推理阶段完整保留原有的K次迭代机制，显著削减了训练阶段的计算开支。

该论文已发表于arXiv（编号2506.14202），并在ICLR 2026会议上进行海报展示。

传统训练瓶颈催生新思路

DiffusionBlocks：分块训练的扩散式重诠释

多架构验证，性能不打折

相关文章