web-supplemented 2026-06-02 17:59 MiniMax-M2.7

小模型也能当「演化器」：研究发现9B模型更新技能收益逼近旗舰Claude

研究表明大模型智能体的装备更新能力与模型规模几乎无关，9B参数的Qwen3.5-9B更新技能的效果与Claude Opus 4.6高度等价，但弱模型从装备中获益的能力严重不足.

人工智能大模型智能体自演化harness研究

References

最新研究揭示了大模型智能体自演化系统中一个反直觉的规律：由谁来扮演「演化器」更新智能体的外部装备，远没有想象中那么关键——小模型在这件事上可以和大模型「平起平坐」。

来自宾夕法尼亚州立大学、UCSC及亚马逊等机构的研究人员联合发表了一篇论文，题为《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》。该研究首次将智能体自演化过程解耦为两个维度：一是演化器的「装备更新」能力，二是执行端智能体从装备中的「获益」能力。

关键发现一：小模型做演化器，效果不输旗舰

交叉测试结果令人意外。在装备更新能力上，不同规模的模型表现出了明显的「平坦化」特征——不同模型更新装备带来的收益差距最大不超过3.1%。具体而言，仅有90亿参数规模的Qwen3.5-9B产出的更新技能，在程序结构上已经与旗舰级Claude Opus 4.6高度等价。这意味着开发自演化系统时，无需在演化器角色上投入高成本的大模型。

正如知名AI研究员Elvis Sar（@omarsar0）指出的，他在编码智能体与长程任务实验中观察到了完全一致的现象：更强大的模型并不总是能演化出更优秀的智能体。

关键发现二：弱模型的「装备获益」严重不足

与装备更新能力的「平等化」形成对比的是，智能体从装备中获益的能力呈现明显的「非单调」趋势：顶级模型表现已接近天花板，而较弱模型虽然提升空间最大，实际获益却最少。研究指出了弱模型存在的两大失效模式：

装备激活失败：弱模型在SkillsBench基准中的技能加载率仅为25.1%，而强模型加载率则高达96%左右，两者差距悬殊。
装备遵循失败：随着长程执行轨迹展开，弱模型的指令遵循度从加载初期的0.52骤降至0.13，能力衰减极为严重。

对行业的启示

这项研究为智能体系统架构设计提供了重要指引。研究表明，算力预算应倾斜给执行智能体，而非在演化器角色上过度投入。在智能体训练中，重点应强化装备的自主唤醒能力与长程指令遵循能力。

正如知乎专栏文章所述，在大模型能力快速溢出的背景下，「Harness」的设计与质量正成为影响AI智能体性能的关键因素——未来AI系统的竞争力，可能不仅取决于底层模型，更取决于如何构建高质量的智能体基础设施。

关键发现一：小模型做演化器，效果不输旗舰

关键发现二：弱模型的「装备获益」严重不足

对行业的启示

相关文章