MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Nous Research发布词元叠加训练新方案,可将预训练提速2到3倍

AI创业公司Nous Research推出词元叠加训练(TST)技术,通过两阶段预训练大幅提升计算效率,但随后陷入与旧论文「撞车」争议。

References

AI创业公司Nous Research近日发布了一项名为词元叠加训练(Token Superposition Training,TST)的大模型预训练新方案。该技术能在不改变底层架构的前提下,将预训练速度提升2到3倍。目前相关论文已发布于arXiv(编号2605.06546)。

两阶段训练:先「打包」后还原

TST的核心是一个两阶段预训练策略。在训练初期(占总训练量的20%到40%),模型不再逐个处理词元,而是将相邻词元打包成「词元包」——对包内词元取平均值作为输入,在输出端则预测包里包含哪些词元,但不区分内部顺序。训练完成后,模型切换回标准下一个词元预测继续训练。由于未修改模型架构,推理阶段产出的模型与常规模型完全兼容。

根据论文描述,TST是一种「即插即用」的方法,不依赖并行策略、优化器、分词器、数据或模型架构的变更,实用性较强。该方案已在最高100亿参数的混合专家(MoE)模型上完成验证。

本质:用数据换算力

从技术逻辑上看,TST的本质是以更快的语料消耗速度换取计算时间的缩短。这在高质量文本数据相对充裕的阶段是划算的,但如果未来高质量语料被大规模耗尽,该方案加速消耗数据的特性可能成为潜在短板。

「撞车」风波:与旧论文机制高度相似

论文发布后数小时内,有读者指出TST的机制与2024年发布的论文《Beyond Next Token Prediction: Patch-Level Training for Large Language Models》(arXiv: 2407.12665)存在显著相似性。该论文同样采用词元分块(patch-level)的预训练方法,核心思路高度趋同。

面对质疑,Nous Research团队随后在Hugging Face平台坦承这是「趋同研究(convergent research)」,并承诺将更新论文、补充相关引用。这一回应相对坦诚,一定程度上平息了部分争议。