Cursor近日发布了Composer系列模型的训练技术细节,揭示了一种创新的"自举"训练方法:用上一代模型自动为下一代搭建强化学习(RL)训练环境。
环境搭建:RL训练的关键瓶颈
强化学习训练需要可运行的代码环境,这是业内公认的技术难点。环境配置不当会导致模型将大量token浪费在调试bug上,难以真正学到有价值的能力;极端情况下环境完全无法运行,整个训练周期的算力投入将付诸东流。
两阶段Autoinstall方案
Cursor的解决方案分为两个阶段:
第一阶段:一个Agent负责阅读代码库的文档和配置文件,提出10条验证命令及对应的预期输出。
第二阶段:另一个Agent从中选取3条命令,从零开始搭建环境,直到命令成功运行。若环境搭建失败,最多重试5次,仍失败则丢弃该环境。
在实际操作中,Agent展现出极强的环境适配能力:它会主动补齐缺失的依赖,包括伪造数据库表、创建MinIO配置替代S3、启动Docker容器作为sidecar服务,甚至生成占位图片。以区块链项目celo-org/celo-monorepo为例,Agent在第一轮配环境失败后,第二轮自行创建mock用户绕过认证,最终成功通过测试。
性能验证与正向循环
在Terminal-Bench基准测试(衡量模型搭建开发环境能力)中,Composer 2得分61.7%,而Composer 1.5仅为47.9%。Cursor认为这一结果证明了该方法的有效性,并预示着未来用Composer 2做autoinstall将带来更好的效果,形成模型能力的正向循环。
此外,Cursor还透露计划让旧版Composer模型参与更多训练环节,涵盖数据预处理、运行管理和架构调优等方面。