首个AI程序员综合评测排行发布
人工智能分析机构Artificial Analysis于近日发布了首个编码智能体综合基准指数(Coding Agent Index),旨在系统评估主流AI编程工具的真实工程能力。
该指数综合三项核心测试:代码生成能力(SWE-Bench-Pro-Hard-AA)、终端操作效率(Terminal-Bench v2)以及技术问答准确性(SWE-Atlas-QnA),力求全面衡量AI程序员的实战表现。
评测结果:Cursor险胜,国产模型成本占优
首期评测结果显示,Cursor CLI搭配Claude Opus 4.7以61分拿下榜首,以1分优势力压OpenAI的Codex(搭配GPT-5.5)。同样调用Opus 4.7模型,Cursor CLI得分略高于Anthropic自家产品Claude Code(60分),但代价是单次任务平均耗时更长(7.8分钟 vs 5.8分钟),API成本也更高(1.47美元 vs 1.24美元)。
值得注意的是,国产模型在成本控制上表现亮眼:
| 产品 | 单次任务成本 |
|---|---|
| Cursor Composer 2 | 0.07美元 |
| DeepSeek V4 Pro | 0.35美元 |
| Kimi K2.6 | 0.76美元 |
然而低价背后是更长的等待时间——Claude Code(Opus 4.7)完成任务仅需5.8分钟,DeepSeek V4 Pro平均需18分钟,Kimi K2.6更是长达41.5分钟。
行业意义
这一基准指数的发布填补了AI编程工具横向评测的空白。过去业界缺乏统一的综合评估标准,用户往往依赖单一基准或主观体验做决策,如今借助覆盖代码生成、终端操作、技术问答三个维度的综合评测,开发者可以更理性地根据成本、速度与效果进行权衡。
对于追求效率的团队,Claude Code配合Opus 4.7仍是速度最优解;对于预算敏感型用户,Cursor Composer 2的超低单价则极具吸引力;而DeepSeek、Kimi等国产模型虽速度较慢,但在成本控制上展现出差异化竞争力。