Anthropic发布Claude Opus 4.8:智能体编码与推理能力全面跃升
AI公司Anthropic于2026年5月28日正式推出旗舰模型Claude Opus 4.8,这是其Opus系列迄今最强的一般访问模型。新模型在软件开发、智能体任务及复杂推理等关键能力上实现全面升级,同时保持与前代相同的API定价(每百万token输入5美元、输出25美元)。
基准测试多项领先,创行业新纪录
Claude Opus 4.8在各权威基准测试中表现亮眼:
- 软件开发基准SWE-Bench Pro:取得69.2%成绩,大幅超越前代Opus 4.7(64.3%),并抛离竞争对手GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%)
- 多学科推理测试Humanity's Last Exam:工具辅助下得分57.9%,无工具状态下49.8%,均居行业首位
- 网络智能体测试OSWorld-Verified:达83.4%
- 浏览器智能体测试Online-Mind2Web:以84.0%创下业界最高分
值得关注的是,据此前报道,Claude Opus 4.8的GDPval Elo得分达1890分,较GPT-5.5提升121分,显示出与竞争对手拉开差距的明显态势。
价格与性能双重优化
Anthropic此次在保持旗舰级智能的同时,实现了显著的性价比提升。新推出的「快速模式」将运行速度提升2.5倍,而API计费价格则降至前代的三分之一左右。这意味着开发者可以用更低的成本获得更快的响应速度。
Effort Control功能上线
网页端claude.ai同步上线「努力程度控制」(Effort Control)功能,允许用户手动调整特定任务的探索深度上限,更好地控制模型在各类任务中的投入程度。
自我纠错与长程协作能力增强
早期测试反馈表明,Opus 4.8在长会话中展现出极佳的自我纠错与长程协作能力,能够主动标记输入或输出数据中的潜在瑕疵,有效改善了开发环境的信噪比。此外,配套的Python SDK已更新至v0.105.1版本,开发者可即刻体验新功能。
Anthropic此次发布正值AI智能体(Agent)市场竞争白热化阶段,Claude Opus 4.8的推出进一步巩固了其在AI编程和智能体任务领域的技术领先地位。