web-supplemented 2026-05-29 08:31 MiniMax-M2.7

Anthropic发布Claude Opus 4.8：智能体编码与推理能力全面跃升

Anthropic于2026年5月底发布旗舰模型Claude Opus 4.8，在保持前代价格不变的前提下，于软件开发、智能体操作及复杂推理等基准测试中创下多项行业纪录。

anthropicclaudeai模型大语言模型智能体ai编程

References

AI公司Anthropic于2026年5月28日正式推出旗舰模型Claude Opus 4.8，这是其Opus系列迄今最强的一般访问模型。新模型在软件开发、智能体任务及复杂推理等关键能力上实现全面升级，同时保持与前代相同的API定价（每百万token输入5美元、输出25美元）。

Claude Opus 4.8在各权威基准测试中表现亮眼：

软件开发基准SWE-Bench Pro：取得69.2%成绩，大幅超越前代Opus 4.7（64.3%），并抛离竞争对手GPT-5.5（58.6%）与Gemini 3.1 Pro（54.2%）
多学科推理测试Humanity's Last Exam：工具辅助下得分57.9%，无工具状态下49.8%，均居行业首位
网络智能体测试OSWorld-Verified：达83.4%
浏览器智能体测试Online-Mind2Web：以84.0%创下业界最高分

值得关注的是，据此前报道，Claude Opus 4.8的GDPval Elo得分达1890分，较GPT-5.5提升121分，显示出与竞争对手拉开差距的明显态势。

Anthropic此次在保持旗舰级智能的同时，实现了显著的性价比提升。新推出的「快速模式」将运行速度提升2.5倍，而API计费价格则降至前代的三分之一左右。这意味着开发者可以用更低的成本获得更快的响应速度。

网页端claude.ai同步上线「努力程度控制」（Effort Control）功能，允许用户手动调整特定任务的探索深度上限，更好地控制模型在各类任务中的投入程度。

早期测试反馈表明，Opus 4.8在长会话中展现出极佳的自我纠错与长程协作能力，能够主动标记输入或输出数据中的潜在瑕疵，有效改善了开发环境的信噪比。此外，配套的Python SDK已更新至v0.105.1版本，开发者可即刻体验新功能。

Anthropic此次发布正值AI智能体（Agent）市场竞争白热化阶段，Claude Opus 4.8的推出进一步巩固了其在AI编程和智能体任务领域的技术领先地位。

相关文章