MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Prime Intellect 开源 general-agent:AI「左右互搏」自动生成 8000+ 训练工具

Prime Intellect 宣布开源智能体训练环境 general-agent,通过合成器与求解器的双玩家博弈机制,自动构建了包含逾 8000 个工具的大型状态数据库,仅用 4400 条合成轨迹微调 30B 模型,即将工具调用准确率提升至原来的近 3 倍。

References

Prime Intellect 开源 general-agent:让 AI「左右互搏」自动生成逾 8000 个训练工具

人工智能领域正在探索一种全新的训练范式:让模型自己生成训练任务、自己解决训练任务。Prime Intellect 于近期正式开源了 general-agent 智能体训练环境,尝试将整个训练流程完全交由 AI 自主完成,摆脱对人工标注静态数据集的依赖。

双玩家博弈:从「种子任务」到「五级难度阶梯」

general-agent 的核心设计是将任务生成定义为一局双玩家博弈——合成器(Synthesizer) 负责设计任务,而 求解器(Solver) 负责解决任务。两者交替对抗,不断推动系统向前进化。

系统从简单的种子任务出发,通过 条件约束、噪音指令、跨实体耦合等 9 种策略,将任务切分为从 t0 到 t4 共五个难度层级。只有通过率落在特定区间的任务才会被保留,而高难度任务则自动成为下一波进化的种子。这种机制确保了训练数据的难度可控性与语义丰富性。

截至目前,该系统已自动构建出包含 4504 个任务、逾 8000 个独特工具的大型合成状态数据库。

性能验证:工具调用准确率从 18.9% 提升至 52.3%

Prime Intellect 团队用实际数据验证了这套方法的有效性:在 BFCL 基准测试中,仅使用该环境合成的 4400 余条轨迹,对一枚 30B 参数模型进行微调,工具调用准确率便从 18.9% 跃升至 52.3%,提升幅度接近 2.8 倍

这一结果印证了博弈驱动合成的假设:通过模型间的直接对抗,系统能够持续产出高质量、带语义验证的训练语料,而这些语料在传统人工标注方式下极难大规模获取。

更大意义:打破人工标注瓶颈

当前大语言模型在工具调用、Agent 任务执行等场景的能力提升,往往受制于高质量训练数据的供给。人工标注成本高、扩展性差,且难以覆盖长尾、高难度任务。

general-agent 的思路正是要打破这一瓶颈:让 AI 自己生成「考题」和「答案」,并在博弈中自动筛选出最有训练价值的内容。这种完全合成、自动进化的训练环境,有望为 Agent 能力的持续提升提供一条可扩展的新路径。

目前项目已完全开源,研究者和开发者可通过 Prime Intellect 的 GitHub 仓库获取相关代码与文档。