web-supplemented 2026-05-12 08:38 MiniMax-M2.7

首个AI程序员基准排行出炉：Cursor搭配Opus 4.7险胜登顶

人工智能分析机构Artificial Analysis发布首个综合编码智能体基准指数，Cursor CLI搭配Claude Opus 4.7以61分夺魁，力压OpenAI Codex与Anthropic官方Claude Code。

AI编程编码智能体基准测试CursorClaude Opus 4.7人工智能

References

首个AI程序员综合评测排行发布

人工智能分析机构Artificial Analysis于近日发布了首个编码智能体综合基准指数（Coding Agent Index），旨在系统评估主流AI编程工具的真实工程能力。

该指数综合三项核心测试：代码生成能力（SWE-Bench-Pro-Hard-AA）、终端操作效率（Terminal-Bench v2）以及技术问答准确性（SWE-Atlas-QnA），力求全面衡量AI程序员的实战表现。

评测结果：Cursor险胜，国产模型成本占优

首期评测结果显示，Cursor CLI搭配Claude Opus 4.7以61分拿下榜首，以1分优势力压OpenAI的Codex（搭配GPT-5.5）。同样调用Opus 4.7模型，Cursor CLI得分略高于Anthropic自家产品Claude Code（60分），但代价是单次任务平均耗时更长（7.8分钟 vs 5.8分钟），API成本也更高（1.47美元 vs 1.24美元）。

值得注意的是，国产模型在成本控制上表现亮眼：

产品	单次任务成本
Cursor Composer 2	0.07美元
DeepSeek V4 Pro	0.35美元
Kimi K2.6	0.76美元

然而低价背后是更长的等待时间——Claude Code（Opus 4.7）完成任务仅需5.8分钟，DeepSeek V4 Pro平均需18分钟，Kimi K2.6更是长达41.5分钟。

行业意义

这一基准指数的发布填补了AI编程工具横向评测的空白。过去业界缺乏统一的综合评估标准，用户往往依赖单一基准或主观体验做决策，如今借助覆盖代码生成、终端操作、技术问答三个维度的综合评测，开发者可以更理性地根据成本、速度与效果进行权衡。

对于追求效率的团队，Claude Code配合Opus 4.7仍是速度最优解；对于预算敏感型用户，Cursor Composer 2的超低单价则极具吸引力；而DeepSeek、Kimi等国产模型虽速度较慢，但在成本控制上展现出差异化竞争力。

首个AI程序员综合评测排行发布

评测结果：Cursor险胜，国产模型成本占优

行业意义

相关文章