MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Cursor公布Composer模型训练新方法:上一代模型自动搭建RL训练环境

Cursor公开了其Composer系列模型的训练技巧,通过上一代模型(Composer 1.5)为下一代自动构建可运行的强化学习环境,实现模型能力的正向循环提升。

References

Cursor近日发布了Composer系列模型的训练技术细节,揭示了一种创新的"自举"训练方法:用上一代模型自动为下一代搭建强化学习(RL)训练环境。

环境搭建:RL训练的关键瓶颈

强化学习训练需要可运行的代码环境,这是业内公认的技术难点。环境配置不当会导致模型将大量token浪费在调试bug上,难以真正学到有价值的能力;极端情况下环境完全无法运行,整个训练周期的算力投入将付诸东流。

两阶段Autoinstall方案

Cursor的解决方案分为两个阶段:

第一阶段:一个Agent负责阅读代码库的文档和配置文件,提出10条验证命令及对应的预期输出。

第二阶段:另一个Agent从中选取3条命令,从零开始搭建环境,直到命令成功运行。若环境搭建失败,最多重试5次,仍失败则丢弃该环境。

在实际操作中,Agent展现出极强的环境适配能力:它会主动补齐缺失的依赖,包括伪造数据库表、创建MinIO配置替代S3、启动Docker容器作为sidecar服务,甚至生成占位图片。以区块链项目celo-org/celo-monorepo为例,Agent在第一轮配环境失败后,第二轮自行创建mock用户绕过认证,最终成功通过测试。

性能验证与正向循环

在Terminal-Bench基准测试(衡量模型搭建开发环境能力)中,Composer 2得分61.7%,而Composer 1.5仅为47.9%。Cursor认为这一结果证明了该方法的有效性,并预示着未来用Composer 2做autoinstall将带来更好的效果,形成模型能力的正向循环。

此外,Cursor还透露计划让旧版Composer模型参与更多训练环节,涵盖数据预处理、运行管理和架构调优等方面。