MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Anthropic为Claude Managed Agents推出Dreaming功能:Agent“下班后”自主复盘

Anthropic为Claude Managed Agents上线“做梦”功能,通过后台自动回顾历史会话提取跨任务模式,同时推出 Outcomes、Webhooks 和多 Agent 编排三项新能力,法律 AI 公司 Harvey 测试显示任务完成率提升约 6 倍。

References

Anthropic 于 5 月 6 日为 Claude Managed Agents 推出“做梦”(Dreaming)功能,让 Agent 在空闲时段自动回顾历史会话,提取反复出现的错误、团队偏好等跨任务规律,并整理写入独立的记忆库。

该功能设计了一个关键的安全边界:所有优化后的结果输出到全新的记忆库,不修改原始数据,用户可随时删除新库而不影响既有记忆。Anthropic 形容这一机制与人类睡眠时大脑自动整理记忆、沉淀经验的过程逻辑相似。

同期进入公开测试的还有三项能力:

Outcomes允许用户预先定义评分标准,由独立的 Grader Agent 在隔离上下文中打分,不合格则打回重做。内部测试数据显示,该功能最高可提升任务成功率 10 个百分点,其中 docx 文件生成质量提升 8.4%,pptx 提升 10.1%。这一思路与 OpenAI Codex 上周推出的 /goal 类似,区别在于 Outcomes 引入独立评判模型,避免受 Agent 推理过程影响。

Webhooks则与 Outcomes 配合使用:Agent 自主执行、修改并通过评判后,通过 webhook 主动通知用户收取结果,实现“放手不管”的自动化工作流。

多 Agent 编排支持主 Agent 将复杂任务拆分并行分配给多个 Specialist Agent,各自有独立模型、工具和上下文,通过共享文件系统协作,结果汇回主 Agent。Netflix 已利用该能力并行分析数百个 build 日志,多个 Agent 各扫各的批次,最终只浮出反复出现的共性问题。

实际落地方面,法律科技公司 Harvey 接入 Dreaming 后,复杂法律文书的完成率提升约 6 倍;写作平台 Spiral 用 Outcomes 强制执行编辑规范,文档审核服务 Wisedocs 将质检流程提速 50%。Dreaming 目前处于 Research Preview 阶段,需申请方可使用。