Anthropic 于近日正式发布了首份面向开发者的智能体操控指南,系统性地披露了 Claude 4.6 与 Opus 4.7 在电脑与浏览器场景下的技术细节与最佳实践。
分辨率上限与客户端预处理
屏幕分辨率直接影响智能体的点击精准度。官方数据显示,Claude 4.6 对截图长边解析上限为 1568 像素,而 Opus 4.7 提升至 2576 像素——相比前代提升约 3 倍。一旦截图超出限制,API 服务端将自动等比压缩图片,进而导致模型生成的点击坐标与客户端原图产生漂移错位。
因此,开发者需在客户端提前将截图缩放至规定尺寸:Claude 4.6 推荐 1280×720,Opus 4.7 推荐 1080p。
思考深度配比与成本优化
界面操控任务主要依赖视觉感知与元素定位,对长链条逻辑推理的需求相对有限。测试表明,Opus 4.7 在「低思考」(low) 模式下的操控表现即可追平 Sonnet 4.6 在「最大思考」(max) 模式下的效果,而 token 消耗仅为后者的 十分之一。
官方建议将思考选项设为 high,相比 max 深度不仅 token 消耗减半,任务成功率也基本持平,应避免开启 max 以防止模型过度思考导致费用翻倍。
三层降本方案
由于单张截图在上下文中最高可消耗 1800 个 token,官方给出以下三层降本策略:
- 常驻缓存断点:在上下文顶部常驻 1 个系统级缓存断点,动态分配另 3 个断点给最近几轮工具执行结果;
- 滚动剪枝:在客户端仅保留最近 3 张截图,其余用占位符替代,减少上下文膨胀;
- 触发总结压缩:当上下文深度逼近 90% 时,自动执行总结压缩以释放空间。
新增 API 与工具
指南中还披露了多项新增功能:
- computer_batch:支持单次调用打包执行多项无视觉依赖的操作;
- Advisor Tool:允许主模型在后台召唤高阶 Opus 模型进行执行步骤审计;
- Teach Mode(录制引导模式):通过录制用户的真实操作轨迹,在回放时作为指令参考,可显著提升任务成功率。
Claude Opus 4.7 于 2026 年 4 月 16 日正式发布,在 SWE-bench Verified 基准上得分 87.6%,并在软件工程与视觉理解能力上实现了显著提升。