MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

小模型也能当「演化器」:研究发现9B模型更新技能收益逼近旗舰Claude

研究表明大模型智能体的装备更新能力与模型规模几乎无关,9B参数的Qwen3.5-9B更新技能的效果与Claude Opus 4.6高度等价,但弱模型从装备中获益的能力严重不足.

References

最新研究揭示了大模型智能体自演化系统中一个反直觉的规律:由谁来扮演「演化器」更新智能体的外部装备,远没有想象中那么关键——小模型在这件事上可以和大模型「平起平坐」。

来自宾夕法尼亚州立大学、UCSC及亚马逊等机构的研究人员联合发表了一篇论文,题为《Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents》。该研究首次将智能体自演化过程解耦为两个维度:一是演化器的「装备更新」能力,二是执行端智能体从装备中的「获益」能力。

关键发现一:小模型做演化器,效果不输旗舰

交叉测试结果令人意外。在装备更新能力上,不同规模的模型表现出了明显的「平坦化」特征——不同模型更新装备带来的收益差距最大不超过3.1%。具体而言,仅有90亿参数规模的Qwen3.5-9B产出的更新技能,在程序结构上已经与旗舰级Claude Opus 4.6高度等价。这意味着开发自演化系统时,无需在演化器角色上投入高成本的大模型。

正如知名AI研究员Elvis Sar(@omarsar0)指出的,他在编码智能体与长程任务实验中观察到了完全一致的现象:更强大的模型并不总是能演化出更优秀的智能体。

关键发现二:弱模型的「装备获益」严重不足

与装备更新能力的「平等化」形成对比的是,智能体从装备中获益的能力呈现明显的「非单调」趋势:顶级模型表现已接近天花板,而较弱模型虽然提升空间最大,实际获益却最少。研究指出了弱模型存在的两大失效模式:

  • 装备激活失败:弱模型在SkillsBench基准中的技能加载率仅为25.1%,而强模型加载率则高达96%左右,两者差距悬殊。
  • 装备遵循失败:随着长程执行轨迹展开,弱模型的指令遵循度从加载初期的0.52骤降至0.13,能力衰减极为严重。

对行业的启示

这项研究为智能体系统架构设计提供了重要指引。研究表明,算力预算应倾斜给执行智能体,而非在演化器角色上过度投入。在智能体训练中,重点应强化装备的自主唤醒能力与长程指令遵循能力。

正如知乎专栏文章所述,在大模型能力快速溢出的背景下,「Harness」的设计与质量正成为影响AI智能体性能的关键因素——未来AI系统的竞争力,可能不仅取决于底层模型,更取决于如何构建高质量的智能体基础设施。