MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Anthropic发布Claude Opus 4.8:智能体编码与推理能力全面跃升

Anthropic于2026年5月底发布旗舰模型Claude Opus 4.8,在保持前代价格不变的前提下,于软件开发、智能体操作及复杂推理等基准测试中创下多项行业纪录。

References

Anthropic Claude Opus 4.8模型发布
Anthropic三张底牌全翻,Claude Opus 4.8突袭发布 Image source

Anthropic发布Claude Opus 4.8:智能体编码与推理能力全面跃升

AI公司Anthropic于2026年5月28日正式推出旗舰模型Claude Opus 4.8,这是其Opus系列迄今最强的一般访问模型。新模型在软件开发、智能体任务及复杂推理等关键能力上实现全面升级,同时保持与前代相同的API定价(每百万token输入5美元、输出25美元)。

基准测试多项领先,创行业新纪录

Claude Opus 4.8在各权威基准测试中表现亮眼:

  • 软件开发基准SWE-Bench Pro:取得69.2%成绩,大幅超越前代Opus 4.7(64.3%),并抛离竞争对手GPT-5.5(58.6%)与Gemini 3.1 Pro(54.2%)
  • 多学科推理测试Humanity's Last Exam:工具辅助下得分57.9%,无工具状态下49.8%,均居行业首位
  • 网络智能体测试OSWorld-Verified:达83.4%
  • 浏览器智能体测试Online-Mind2Web:以84.0%创下业界最高分

值得关注的是,据此前报道,Claude Opus 4.8的GDPval Elo得分达1890分,较GPT-5.5提升121分,显示出与竞争对手拉开差距的明显态势。

价格与性能双重优化

Anthropic此次在保持旗舰级智能的同时,实现了显著的性价比提升。新推出的「快速模式」将运行速度提升2.5倍,而API计费价格则降至前代的三分之一左右。这意味着开发者可以用更低的成本获得更快的响应速度。

Effort Control功能上线

网页端claude.ai同步上线「努力程度控制」(Effort Control)功能,允许用户手动调整特定任务的探索深度上限,更好地控制模型在各类任务中的投入程度。

自我纠错与长程协作能力增强

早期测试反馈表明,Opus 4.8在长会话中展现出极佳的自我纠错与长程协作能力,能够主动标记输入或输出数据中的潜在瑕疵,有效改善了开发环境的信噪比。此外,配套的Python SDK已更新至v0.105.1版本,开发者可即刻体验新功能。

Anthropic此次发布正值AI智能体(Agent)市场竞争白热化阶段,Claude Opus 4.8的推出进一步巩固了其在AI编程和智能体任务领域的技术领先地位。