独立AI研究机构Epoch AI近日发布领域特定能力指数(Domain-Specific Epoch Capabilities Index,简称DS-ECI)最新分析报告,聚焦Anthropic旗下Claude系列模型的能力分布特征。
编程优势长期稳定 数学短板明显缩小
根据DS-ECI的测算方法,Claude系列在软件工程基准测试(SWE-ECI)上的得分始终高于其综合能力指数,而在数学基准测试(Math-ECI)上则长期存在明显落差。这一"编程强、数学弱"的特征在多代模型迭代中持续存在。
不过,最新发布的Opus 4.6和4.7版本已展现出显著的进步。数据显示,这两个最新版本已将数学能力与综合得分的差距缩小至1分以内,基本补齐了此前的短板。
Opus 4.7编程能力再获提升
在Anthropic于今年4月正式发布Opus 4.7后,多项实测数据显示其编程能力进一步增强。据知乎专栏报道,在Cursor针对93个编程任务的测试中,Opus 4.7的任务解决率相比4.6版本提升了13%,其中包括4个前代模型无法完成的任务。
BlockTempo报道指出,Opus 4.7的升级重点包括高端软件工程能力的显著提升、更自主地处理复杂耗时编码任务、新增xhigh极高思考模式,以及视觉解析度提升3倍,但定价保持不变。
ECI测算机制说明
值得注意的是,Epoch AI的ECI指数通过比较各大模型之间的相对表现来计算,直接反映特定任务对AI的平均难度,而非相对于人类的难度。这使得该指数能够更清晰地呈现不同AI模型在各领域的相对优劣。