MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

MiniMax揭秘大模型「遗忘症」:全词表扫描发现近5%token在后训练中退化

MiniMax技术团队通过排查模型无法输出人名「马嘉祺」的个案,发现近5%词表token在后训练阶段发生显著退化,其中日语退化最严重达29.7%,通过全词表复读训练修复后输出稳定度从0.329升至0.97以上。

References

问题发现:从「马嘉祺」无法输出说起

今年3月,有网友发现MiniMax大模型存在一个诡异现象:当被问及青年艺人马嘉祺时,模型能准确描述其身份履历、合作作品及综艺细节,却始终无法正确拼写其姓名。这一「能认人却写不出名字」的现象迅速引发技术圈关注。

根因分析:低频token被「挤出」向量空间

MiniMax技术团队深入排查后发现,根源在于分词器(tokenizer)将「嘉祺」二字合并为一个独立token。预训练阶段模型接触过大量互联网文本,学会了这一token;但后训练的对话数据中,包含「嘉祺」的样本不足5条。

更关键的是,后训练过程中tool_call标记、代码符号等高频token持续更新周围向量空间,将「嘉祺」这类低频token「挤」到了错误的方向。模型实际上仍「认识」马嘉祺,丢失的仅是输出该token的能力。

规模性扫描:日语退化最严重

团队随后对约20万token的完整词表进行全量扫描,发现约4.9%的token发生了显著退化。退化程度因语言差异显著:

语言 退化token比例
日语 29.7%
韩语 3.3%
俄语 3.7%
中文 3.9%
英文 3.5%

日语token的严重退化还解释了此前模型日语对话中偶尔混入俄语或韩语字符的现象——参数漂移后,日语与其他语言的token在向量空间中发生混淆。退化严重的还有「传奇sf」「人流手术」等SEO垃圾词,机制与「嘉祺」完全相同。

修复方案:全词表复读训练

针对这一问题,团队构造了覆盖全词表的合成数据,让模型通过简单的复读任务练习到每个token。修复效果显著:日语回答中混入俄文字符的比例从47%降至1%,全词表输出参数稳定度(余弦相似度)从最低0.329升至全部高于0.97。

这一案例揭示了大模型「认知」与「表达」之间的割裂:知识检索能力完好,但在生成路径上存在断层。传统评估标准聚焦知识准确性与逻辑推理,却忽视「表达一致性」等基础能力,此类缺陷可能导致更隐蔽的错误,如合同生成中的信息篡改。