web-supplemented 2026-05-14 16:46 MiniMax-M2.7

Nous Research发布词元叠加训练新方案，可将预训练提速2到3倍

AI创业公司Nous Research推出词元叠加训练（TST）技术，通过两阶段预训练大幅提升计算效率，但随后陷入与旧论文「撞车」争议。

ai大模型预训练Nous ResearchTST词元叠加训练

References

AI创业公司Nous Research近日发布了一项名为词元叠加训练（Token Superposition Training，TST）的大模型预训练新方案。该技术能在不改变底层架构的前提下，将预训练速度提升2到3倍。目前相关论文已发布于arXiv（编号2605.06546）。

两阶段训练：先「打包」后还原

TST的核心是一个两阶段预训练策略。在训练初期（占总训练量的20%到40%），模型不再逐个处理词元，而是将相邻词元打包成「词元包」——对包内词元取平均值作为输入，在输出端则预测包里包含哪些词元，但不区分内部顺序。训练完成后，模型切换回标准下一个词元预测继续训练。由于未修改模型架构，推理阶段产出的模型与常规模型完全兼容。

根据论文描述，TST是一种「即插即用」的方法，不依赖并行策略、优化器、分词器、数据或模型架构的变更，实用性较强。该方案已在最高100亿参数的混合专家（MoE）模型上完成验证。

本质：用数据换算力

从技术逻辑上看，TST的本质是以更快的语料消耗速度换取计算时间的缩短。这在高质量文本数据相对充裕的阶段是划算的，但如果未来高质量语料被大规模耗尽，该方案加速消耗数据的特性可能成为潜在短板。

「撞车」风波：与旧论文机制高度相似

论文发布后数小时内，有读者指出TST的机制与2024年发布的论文《Beyond Next Token Prediction: Patch-Level Training for Large Language Models》（arXiv: 2407.12665）存在显著相似性。该论文同样采用词元分块（patch-level）的预训练方法，核心思路高度趋同。

面对质疑，Nous Research团队随后在Hugging Face平台坦承这是「趋同研究（convergent research）」，并承诺将更新论文、补充相关引用。这一回应相对坦诚，一定程度上平息了部分争议。

两阶段训练：先「打包」后还原

本质：用数据换算力

「撞车」风波：与旧论文机制高度相似

相关文章