web-supplemented 2026-05-16 10:17 MiniMax-M2.7

Epoch AI评测：Claude编程长板稳固 Opus 4.7补齐数学短板

Epoch AI最新领域特定能力指数分析显示，Anthropic旗下Claude系列模型在编程领域保持领先优势的同时，最新的Opus 4.6和4.7版本已成功缩小数学与综合能力的差距。

claudeanthropicepoch ai大模型评测人工智能

References

独立AI研究机构Epoch AI近日发布领域特定能力指数（Domain-Specific Epoch Capabilities Index，简称DS-ECI）最新分析报告，聚焦Anthropic旗下Claude系列模型的能力分布特征。

编程优势长期稳定数学短板明显缩小

根据DS-ECI的测算方法，Claude系列在软件工程基准测试（SWE-ECI）上的得分始终高于其综合能力指数，而在数学基准测试（Math-ECI）上则长期存在明显落差。这一"编程强、数学弱"的特征在多代模型迭代中持续存在。

不过，最新发布的Opus 4.6和4.7版本已展现出显著的进步。数据显示，这两个最新版本已将数学能力与综合得分的差距缩小至1分以内，基本补齐了此前的短板。

在Anthropic于今年4月正式发布Opus 4.7后，多项实测数据显示其编程能力进一步增强。据知乎专栏报道，在Cursor针对93个编程任务的测试中，Opus 4.7的任务解决率相比4.6版本提升了13%，其中包括4个前代模型无法完成的任务。

BlockTempo报道指出，Opus 4.7的升级重点包括高端软件工程能力的显著提升、更自主地处理复杂耗时编码任务、新增xhigh极高思考模式，以及视觉解析度提升3倍，但定价保持不变。

值得注意的是，Epoch AI的ECI指数通过比较各大模型之间的相对表现来计算，直接反映特定任务对AI的平均难度，而非相对于人类的难度。这使得该指数能够更清晰地呈现不同AI模型在各领域的相对优劣。