web-supplemented 2026-05-22 15:56 MiniMax-M2.7

Nous Research新研究揭示：分词器红利可在字节级被模拟，大模型或迎架构变革

人工智能研究机构Nous Research发表论文，通过1.7B参数规模受控实验证实，大语言模型长期依赖的分词器所提供的性能优势可被纯字节层面有效模拟，为免分词架构提供了理论支撑。

大模型分词器字节级模型Nous Research架构创新AI研究

References

研究背景：分词器的核心作用与局限

大语言模型（LLM）长期依赖分词器（Tokenizer）将文本转换为模型可处理的 token 序列，这一组件在业界已存在近五到六年时间。尽管分词机制显著提升了训练效率，但同时也引入了诸多固有问题：词表偏差、跨语言能力受限、以及对特定语种的覆盖不足等。

Nous Research 团队在最新论文中系统性地解耦了分词机制的各项收益。实验在 1.7B 参数规模下展开，通过受控的字节级预训练流程，分离并量化了以下关键因素：

数据吞吐量效应：研究证明，在原生字节模型中提升数据吞吐量，是弥补与分词模型性能差距的最主要贡献因素。模拟压缩扩大了单步梯度的处理量，直接带来验证损失的最大降幅。

形态学边界注入：将子词边界信息作为二进制序列叠加至输入字节中，成功为模型建立了不泄露未来信息的长效归纳偏置（inductive bias）。这种非泄露式边界注入是实现字节级竞争力的关键设计。

词表缩放收益有限：在 1.7B 参数规模下，词表参数缩放、预测下一个子词等额外机制的收益远低于预期，表明现有分词红利中相当部分可被更直接的工程手段所替代。

该研究为免分词（Tokenizer-Free）大模型开发提供了明确的破局思路。论文指出，未来架构优化应直接聚焦于提升实际吞吐量，并以非泄露的方式显式融入形态学先验。这与此前麻省理工学院等机构提出的 T-FREE 方案理念一致，后者通过稀疏注意力机制在保持竞争力的同时提升了计算效率。

尽管更大参数规模下的协同效应仍待验证，但 1.7B 规模的测试结论已足够表明：分词器并非大语言模型的必经之路，字节级方案在工程上是可行且值得深入探索的方向。