Prime Intellect 开源 general-agent:让 AI「左右互搏」自动生成逾 8000 个训练工具
人工智能领域正在探索一种全新的训练范式:让模型自己生成训练任务、自己解决训练任务。Prime Intellect 于近期正式开源了 general-agent 智能体训练环境,尝试将整个训练流程完全交由 AI 自主完成,摆脱对人工标注静态数据集的依赖。
双玩家博弈:从「种子任务」到「五级难度阶梯」
general-agent 的核心设计是将任务生成定义为一局双玩家博弈——合成器(Synthesizer) 负责设计任务,而 求解器(Solver) 负责解决任务。两者交替对抗,不断推动系统向前进化。
系统从简单的种子任务出发,通过 条件约束、噪音指令、跨实体耦合等 9 种策略,将任务切分为从 t0 到 t4 共五个难度层级。只有通过率落在特定区间的任务才会被保留,而高难度任务则自动成为下一波进化的种子。这种机制确保了训练数据的难度可控性与语义丰富性。
截至目前,该系统已自动构建出包含 4504 个任务、逾 8000 个独特工具的大型合成状态数据库。
性能验证:工具调用准确率从 18.9% 提升至 52.3%
Prime Intellect 团队用实际数据验证了这套方法的有效性:在 BFCL 基准测试中,仅使用该环境合成的 4400 余条轨迹,对一枚 30B 参数模型进行微调,工具调用准确率便从 18.9% 跃升至 52.3%,提升幅度接近 2.8 倍。
这一结果印证了博弈驱动合成的假设:通过模型间的直接对抗,系统能够持续产出高质量、带语义验证的训练语料,而这些语料在传统人工标注方式下极难大规模获取。
更大意义:打破人工标注瓶颈
当前大语言模型在工具调用、Agent 任务执行等场景的能力提升,往往受制于高质量训练数据的供给。人工标注成本高、扩展性差,且难以覆盖长尾、高难度任务。
general-agent 的思路正是要打破这一瓶颈:让 AI 自己生成「考题」和「答案」,并在博弈中自动筛选出最有训练价值的内容。这种完全合成、自动进化的训练环境,有望为 Agent 能力的持续提升提供一条可扩展的新路径。
目前项目已完全开源,研究者和开发者可通过 Prime Intellect 的 GitHub 仓库获取相关代码与文档。