web-supplemented 2026-05-19 19:20 MiniMax-M2.7

Prime Intellect 开源 general-agent：AI「左右互搏」自动生成 8000+ 训练工具

Prime Intellect 宣布开源智能体训练环境 general-agent，通过合成器与求解器的双玩家博弈机制，自动构建了包含逾 8000 个工具的大型状态数据库，仅用 4400 条合成轨迹微调 30B 模型，即将工具调用准确率提升至原来的近 3 倍。

prime intellectgeneral-agent强化学习ai智能体开源自动化训练自进化

References

Prime Intellect 开源 general-agent：让 AI「左右互搏」自动生成逾 8000 个训练工具

人工智能领域正在探索一种全新的训练范式：让模型自己生成训练任务、自己解决训练任务。Prime Intellect 于近期正式开源了 general-agent 智能体训练环境，尝试将整个训练流程完全交由 AI 自主完成，摆脱对人工标注静态数据集的依赖。

general-agent 的核心设计是将任务生成定义为一局双玩家博弈——合成器（Synthesizer） 负责设计任务，而 求解器（Solver） 负责解决任务。两者交替对抗，不断推动系统向前进化。

系统从简单的种子任务出发，通过 条件约束、噪音指令、跨实体耦合等 9 种策略，将任务切分为从 t0 到 t4 共五个难度层级。只有通过率落在特定区间的任务才会被保留，而高难度任务则自动成为下一波进化的种子。这种机制确保了训练数据的难度可控性与语义丰富性。

截至目前，该系统已自动构建出包含 4504 个任务、逾 8000 个独特工具的大型合成状态数据库。

Prime Intellect 团队用实际数据验证了这套方法的有效性：在 BFCL 基准测试中，仅使用该环境合成的 4400 余条轨迹，对一枚 30B 参数模型进行微调，工具调用准确率便从 18.9% 跃升至 52.3%，提升幅度接近 2.8 倍。

这一结果印证了博弈驱动合成的假设：通过模型间的直接对抗，系统能够持续产出高质量、带语义验证的训练语料，而这些语料在传统人工标注方式下极难大规模获取。

当前大语言模型在工具调用、Agent 任务执行等场景的能力提升，往往受制于高质量训练数据的供给。人工标注成本高、扩展性差，且难以覆盖长尾、高难度任务。

general-agent 的思路正是要打破这一瓶颈：让 AI 自己生成「考题」和「答案」，并在博弈中自动筛选出最有训练价值的内容。这种完全合成、自动进化的训练环境，有望为 Agent 能力的持续提升提供一条可扩展的新路径。

目前项目已完全开源，研究者和开发者可通过 Prime Intellect 的 GitHub 仓库获取相关代码与文档。