web-supplemented 2026-05-07 18:48 MiniMax-M2.7

Cursor公布Composer模型训练新方法：上一代模型自动搭建RL训练环境

Cursor公开了其Composer系列模型的训练技巧，通过上一代模型（Composer 1.5）为下一代自动构建可运行的强化学习环境，实现模型能力的正向循环提升。

cursorcomposer强化学习ai编程模型训练autoinstall

References

Cursor近日发布了Composer系列模型的训练技术细节，揭示了一种创新的"自举"训练方法：用上一代模型自动为下一代搭建强化学习（RL）训练环境。

环境搭建：RL训练的关键瓶颈

强化学习训练需要可运行的代码环境，这是业内公认的技术难点。环境配置不当会导致模型将大量token浪费在调试bug上，难以真正学到有价值的能力；极端情况下环境完全无法运行，整个训练周期的算力投入将付诸东流。

两阶段Autoinstall方案

Cursor的解决方案分为两个阶段：

第一阶段：一个Agent负责阅读代码库的文档和配置文件，提出10条验证命令及对应的预期输出。

第二阶段：另一个Agent从中选取3条命令，从零开始搭建环境，直到命令成功运行。若环境搭建失败，最多重试5次，仍失败则丢弃该环境。

在实际操作中，Agent展现出极强的环境适配能力：它会主动补齐缺失的依赖，包括伪造数据库表、创建MinIO配置替代S3、启动Docker容器作为sidecar服务，甚至生成占位图片。以区块链项目celo-org/celo-monorepo为例，Agent在第一轮配环境失败后，第二轮自行创建mock用户绕过认证，最终成功通过测试。

性能验证与正向循环

在Terminal-Bench基准测试（衡量模型搭建开发环境能力）中，Composer 2得分61.7%，而Composer 1.5仅为47.9%。Cursor认为这一结果证明了该方法的有效性，并预示着未来用Composer 2做autoinstall将带来更好的效果，形成模型能力的正向循环。

此外，Cursor还透露计划让旧版Composer模型参与更多训练环节，涵盖数据预处理、运行管理和架构调优等方面。

环境搭建：RL训练的关键瓶颈

两阶段Autoinstall方案

性能验证与正向循环

相关文章